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译者序 

概率论是研究自然界和人类社会中的随机现象数量规律的数学分支.概率论 
的理论和方法与数学的其他分支、自然科学、工程、人文及社会科学各领域相互交 
叉渗透，已经成为这些学科中的基本方法.概率论（或概率统计）和髙等数学一样， 
已经成为我国高等学校各专业普遍设立的一门基础课. 

Dimitri P . Bertsekas 和 John N . Tsitsiklis 编写的这本《概率导论》独具特色. 
作者用流畅的笔调，阐述了概率论的基本原理和方法，同时用大量丰富的例子说明 
概率论的应用领域的广 泛性. 本书在内容上具有一些鲜明的特点.首先教材的内容 
丰富，除了系统地介绍概率论基本原理外，还包含了随机过程和统计学的内容.随 
机过程部分涉及伯努利和泊松过程、马尔可夫过程等内容，统计学涉及贝叶斯统计 
和经典统计的主要方法.本书的内容可以提供两门具有不同特点的一学期课程的 
材料，一门是概率论与随机过程，另一门是概率论与统计推断.任课教员可以从本 
书选取相关内容组成相应课程.本书的另一个特点是它的广泛适应性和理论的完 
整性.初学者通过系统学习，可以掌握概率论和统计学的基本 原理; 追求数学严密 
性的学生，也可从本书的注解和习题解答中学习到概率统计的严格理论，了解理论 
的完整性和逻辑的严密性. 

译者曾与本书第一作者有过当面交流的 机会. 作者对于中国不断发展的教育 
科学事业很感兴趣，乐于看到概率统计在中国教育领域中的地位日益提髙，乐于将 
本书介绍给中国读者.本书是麻省理工学院的基础课教材，是在多年教学的基础上 
写 成的. 作为世界著名髙校，他们的经验值得我们学习，我们希望本教材的中文版 
能够对提高我国概率统计教育水平起到积极的作用. 

由于译者的学识和中英文水平有限，译文难免有不妥之处，欢迎广大读者批评 
指正. 



第 2 版前言 


本书对第1版进行了重大 改动： 对原有材料的编排做了变动，增加了新的材料， 
页数也增加了 25 %.主要的改动如下. 

( a ) 统计推断方面增加了两章 内容： 一章是贝叶斯 统计； 一章是古典统计推断. 
这两章的主要内容是介绍基本概念，并通过例子加深对方法的理解. 

( b ) 重新安排组织了第3、第4两章的内容，一方面是为了增加新的内容，另一 
方面是为了表达的流畅.第1版中的4_7节（二元正态分布）已经删去，但是在本书 
的网页上还保留着. 

( c ) 增加了一些例子和 习题. 

新版的主要目的是为教师提供更多的材料以供他们选材,特别是提供了统计推 
断引论的题材.注意本书第6 〜 7章和第8 〜 9章在内容上是相互独立的.另外，第 
5 〜 7 章的内容是不依赖第4章的，第8 〜 9章只需要知道 4.2 〜 4.3 节的内容.因此, 
利用本书，可以提供下列的课程. 

⑷概率论与统计推断引 论：第 1 〜 3章， 4.2 〜 4.3 节，第5章，第8 〜 9章. 

( b ) 概率论与随机过程引 论：第 1 〜 3章，第5 〜 7章，加上第4章少数几节. 

我们要对我们的同行表示感谢.他们对第1版的内容提出了宝贵的建议，同时 
对新增材料的组织提供了帮助.特别是 Ed Coffinan , Munther Dahleh , Vivek Goyal , 
Anant Sahai , David Tse , George Verghese , Alan Willsky , John Wyatt 等.最后，我 
们要感谢 Mengdi Wang , 她为新增的两章提供了习题和图表. 


Dimitri P . Bertsekas , Dimitrib @ mit.edu 
John N . Tsitsiklis , jnt @ mit.edu 
2 008 年 6 月于麻省剑桥 



概率是用计算概括的常识 
——拉普雜 


本书是我们在 MIT 开设的一门概率论入门课程“概率系统分析”的基础上写 
成的. 

选择这门课程的学生来自全校各个科系，他们背景各异，且兴趣广泛.既有刚 
入学的本科一年级新生也有研究生，既有学工科的也有学管理的.为此，在教学上 
我们一直力求表达简洁而又不失分析推理的严格.我们教学的主要目的是培养学生 
构造和分析概率模型的能力，希望学生既具备直观理解力又注重数学的准确性. 

根据这种精神，概率论模型中某些很严格的数学推导被简化处理了，或者只是 
进行了直观的解释，免得复杂的证明妨碍了学生对概率论本质的理解.同时，有些 
分析留在每章最后的理论习题部分，它们用到高等微积分知识.此外，为了满足某 
些专业读者的需要，我们将某些推理过程中的数学技巧展示在注解中. 

本书包含了概率论的基础理论部分（概率模型、离散随机变量和连续随机变 
量、多元随机变量以及极限定理)，这些都是概率论入门教材的主要内容.在第4 〜 6 
章，也包含了一些较高级的内容，教师在讲授的过程中可以选择部分内容，以配合 
课程大纲的具体需求.其中第4章介绍了矩母函数、条件概率的现代定义、独立随 
机变量的和、最小二乘估计、二维正态分布等 内容; 第5 〜 6章较为详细地介绍了伯 
努利、泊松和马尔可夫过程. 

我们在 MIT 开设的（一学期）课程中，讲授了第1〜7章的几乎全部内容，只是 
略去了二维正态分布 （4.7 节）和连续时间马尔可夫链 （6.5 节）两部分.然而,也可 
以作如下 选择： 略去课本中关于随机过程的全部内容,这样可使任课教师集中精力 
介绍概率论的基本概念，或者增加一些感兴趣的其他材料. 

本书的主要省略之处是缺乏对统计学的全面介绍.我们引入了离散和连续情 
形下的贝叶斯准则和最小二乘估计，引入贝叶斯统计理论，但并不涉及参数估计和 
非贝叶斯假设检验. 

本书的习题可以分成三类. 

( a ) 理论 习题： 理论习题（用 * 标明）是教材的重要组成部分.具有数学背景的 
学生会发现这部分内容是由课文自然拓展而来.我们同时给出了这部分习题的解 
答.但是，善于思考的读者会发现大部分（特别是前几章的）习题都能自己独立地做 
出来. 



2 前言 


( b ) 课程 习题： 除理论习题外，书中还包含了难度各异的其他习题.这些习题是 
在 MIT 的讨论班上经常研究的题目，也是 MIT 的学生学习概率论的主要方法之 
一.我们希望学生首先独立地做习题,然后参考标准答案进行核对，这样可以提高他 
们的学习能力.答案公布在教材的网页上： http :// www . athenasc . com / probbook . 
html . 

( c ) 补充 习题： 有很多补充习题并没有印在书上，但是在本书的网页上可以查 
到（且越来越多).其中许多习题是 MIT 学生的家庭作业和考试题目.我们希望采 
用本教材的教师可以同样地利用它们.这些题目放在网上是公开的，但是题目的答 
案是不公开的.采用本教材的教师可以联系作者得到这些答案. 

我们要感谢许多为本书作出贡献的人.当我们开始在 MIT 接手这门概率论课 
程的教学任务时，就开始了写书的计划.我们的同事 A 1 Drake 教这门课已经几十 
年了.他的课程组织经历了时间的考验，其经典教材对各个题材均有生动的描述， 
还有大量讨论班内容和家庭作业等丰富的材料，我们十分庆幸自己的工作有这样高 
的起点.特别感谢 A 1 Drake 给我们创造了如此有利的起始条件. 

我们也要感谢其他院校的几位同事，他们有的利用本书的手稿进行教学，有的 
阅读过手稿，并对本书的改进提供了 反馈. 我们要特别感谢 Ibrahim Abou Faycal , 
Gustavo de Veciana , Eugene Feinberg , Bob Gray , Muriel Medard , Jason Papastavrou , 
Ilya Poliak , David Tse , Terry Wagner 等. 

还有 MIT 的助教们，他们对各阶段的书稿进行了认真的校核，并丰富和完善 
了习题和 解答. 通过他们与学生的直接交流，才使得本教材能够适应学生的学习水 
平. 


本书能够为 MIT 的数千学生在其学业生涯之初提供服务，使我们感到十分欣 
慰. 在本书的成书过程中，他们热心反馈书本中的问题和学习心得.我们感谢他们 
的反馈与耐心. 

最后，我们还要感谢我们的家人在这个漫长的成书过程中对我们的支持. 


Dimitri P . Bertsekas , Dimitrib @ mit.edu 
John N . Tsitsiklis , jnt @ mit.edu 
2002 年 5 月于麻省剑桥 
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第 1 章样本空间与概率 

“概率”是一个非常有用的概念，它可以从不同的层面来加以解释.先看下面 
一幅对话场景. 


一个病人被送进医院，并施以一种急救的药.病人家属为了了解药的疗效， 
询问了当班的护士.下面是他们之间的一段对话. 

家属： 护士小姐，请问这种药有效的概率是多少？ 

护士： 我希望这种药是有效的，明天就会见分晓. 

家属： 是的，但是我想知道这种药有效的概率. 

护士： 每个病人的病情是不一样的，看情况发展吧. 

家属： 这么说吧，在100宗类似的病例中，你认为有多少宗是有效的？ 

护士（有些未耐 烦)： 我已经告诉你了，每个病人的情况是不一样的.这种 
药，对某些病人是有效的，对另一些病人是无效的. 

家属（继续坚 持)： 现在请告诉我，如果必须打赌的话，你会押哪一注，这种 
药是有效还是无效？ 

护士（有些惊 奇)： 那我愿意打赌，对于这位病人,这种药是有效的. 

家属（多少松了一口 气)： 好吧！我再问你，你是否愿意如此 押注： 若这药无 
效，你输掉2元钱，若这药有效，你赢1元钱？ 

护士 （有 些恼 怒): 多么荒谬的想法！你是在浪费我的时间 • 


在这组对话中，病人家属希望用概率的概念同护士讨论药的疗效这种具 有不确 
定性的事件.但是护士的第一反应是对概率这个概念的不认可，或不理解，而家属 
试图将概率的概念解释得更具体一些.他首先试图将概率解释成偶然事件在多次 
重复试验中出现的频率,这是最通常的解释.例如，我们说一枚两面对称的硬币，在 
抛掷试验中以50%的概率出现正面，这么说实际上是指在多次重复抛掷硬币时，出 
现正面向上的次数约占一半.但是护士似乎不大愿意接受家属的这种想法，护士的 
想法不是完全没有 道理. 如果这种药是第一次在医院里使用，或护士从没有过这方 
面的经验，那何从谈起治愈的频率呢？ 

在许多涉及不确定性的事例中，用频率解释是适宜的，然而，也有一些事例，不 
宜用频率进行 解释. 比如，有一个学者以90%的把握断言《伊里亚特》和《奥 德赛》 
是由同一作者创作的.由于他所讨论的是不可重复的一次性事件,这样的结论只是 
提供一些主观看法，而与频率无关.所谓概率为90%的把握只是学者 的主观信念. 
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或许有人认为主观信念是不值得研究的，至少从数学或科学的观点来看是如此.但 
是在实际生活中，人们面对不确定性的时候，经常不得不作出抉择.为了作出正确 
的或至少保持一致的抉择，科学和系统地利用他们的主观信念是一个先决条件. 

事实上，一个理智的选择和行动揭示了许多内在的主观概率，然而在许多场合 
中，作出抉择的人自己也没有意识到他们应用了概率推理.在前面的对话场景中， 
病人家属以一种隐蔽的方式试图推断护士的主观信念.由于护士愿意以1:1的赔 
率打赌这种药是有效的，那么在护士的主观概念中，这种药有效的概率至少为50%. 
如果这位护士接受对话最后提出的赔率为2:1的赌注的话，这说明在护士的主观概 
念中，这种药有效的概率至少为 2/3. 

在此我们不去深究概率推理适用性方面的哲学问题，而是事先假定概率论在很 
多方面都具有实用价值，包括概率只反映主观信念的情形.概率论在科学、工程、 
医药、管理等领域中有许多成功应用的事例.这许多经验证据说明概率论在应用中 
是一种极其有用的工具. 

本书的主要目的是发掘用概率模型描述不确定性的艺术和提高概率推理的能 
力.作为第一步，本章要把概率模型的基础结构及其基本性质刻画清楚.概率是定 
义在某些试验结果的集合上的.为此,我们首先应该对集合论作一简介. 

1.1 集 合 

概率论大量应用集合运算.我们首先引进相关的记号和术语. 

将一些研究对象放在一起，形成 集合， 而这些对象就称为集合的 元素.设 S 是 
一个集合， a : 是 S 的元素，我们将元素和集合的这种关系写成 ze 父若 CC 不是5的 
元素,就写成 x 牟 S . 一个集合可以没有元素，这 个特殊 的集合就称为 空集, 记作 0. 

可用不同的方法刻画一个集合•若 S 包含有限个元素 Xl , x 2 , … . ，；，我们只需 
将这些元素列在花括 弧中： 

5= { xi , a ； 2 , ••- , x n }. 

例如，掷一枚骰子以后的所有可能结果的集合是{1，2,3,4,5, 6}, 抛一枚硬币的可能 
结果的集合是 { 丑， r }, 其中丑代表正面向上， r 代表反面向上. 

若 S 包含无限多个元素 Xl ,X lr --, 但它们可以像正整数那样排成一列，我们 
可写成 

5 = { Xi , a ；2, ■•- }, 

此时称 <5为 可数无限集. 例如，偶数的集合{0,2, -2,4, -4,… } 是一个可数无限集. 
我们也可以以 z 具有某种性质 P 为条件来刻画一个集合，记作 

{ a :| a : 满足性质 P }. 
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例如，偶数集合可写成 { fc | fc /2 是整数 }. 类似地,在实数区间[0，1]中的数集可表示 
成 { o ;| 0 < cc < 1}. 注意，集合忙|0 是一个连续集合，它不可能排成一列 

(章后习题中给出了证明概要).这样的集合是不可数的集合. 

若集合 s 的所有元素均为集合 r 的元素，就称 s 为 r 的子集，记作 s C r 或 
tds . 引入空间的概念是十分必要的.将我们感兴趣的所有元素放在一起，形成 
一个集合，这个集合称为空间，记作 a 当 n 确定以后，我们所讨论的集合 s 都是 
n 的子集. 

l . i . i 集合运算 

集合忙 e 叫 z 《 ■§} 称为集合 S 相对于 D 的补集，记作以.注意 W = 0. 
由属于 S 或属于 t 的元素组成的集合称为 S 和 r 的并，记为 sur . 既属于 
s 又属于 t 的元素组成的集合称为 s 和 r 的交，记成 snr . 这些集合可用下列 
公式表达 

5 UT ={ a ;| xeS '^ a ； eT }, 

和 

S'nr = {a;|a ； GS ， Sla ； GT}. 

有时候我们需要考虑几个甚至无穷个集合的并和交的问题.例如，对每一个 n , 确 
定一个集合&，则 

(J Sn = 5 1 ! U 5 2 • • ■ = { a ;| a ： € 对某个 n 成立}， 

n=l 

oo 

P | n • • ■ = { x | a ; € 5„ 对一切 n 成立 }. 



(a) 阴影部分是 snr ( b ) 阴影部分是 sur (c) 阴影部分是 srir« 



(d) 此处是 res ■，阴 （e)s, r, r 互不相交 （f) s. r 和! 7 形成 si 的 

影部分是 y —个分割 


图 l . i 韦恩图的例子 
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两个集合称 为不相 交的，如果它们的交集为空集.更一般地，几个集合称为互 
不相 交的，如果任何两个集合没有公共元素.一组集合称为集合 S 的 分割， 如果这 
组集合中的集合互不相交，并且它们的 并为& 

设: r 和 y 为两个研究对象，我们用 ( x ， y ) 表示 a : 和 y 的有序对.我们用 R 表 
示实数集合，用 R 2 表示实数对的集合，即二维平面，用 R 3 表示三维实数向量的集 
合（三维空间)_集合及其运算可用韦恩图形象化表示，见图 1 . 1 . 

1 . 1.2 集合的代数 

集合运算具有若干性质，这些运算性质可由运算的定义直接证得，举例如下： 
SUT = TUS , SU ( T \ JU ) = { S \ JT ) LIU , 

sn ( Tuu ) = ( snT ) u ( snu ), su ( t nu ) = ( Sut ) n (Su u ), 

( S c ) c = s , sns c = 0 , 

sun = n , snn = s . 

下面给出的两个公式就是著名的德摩根 定律： 

fu 5 ™) = n^ 1 fn 5 ") = U 5 ™- 

\ n / n \ n / n 

现在证明第一个公式.设 a ; e ( U „5„) c , 这 说明 ; r 0 U n S n , 即对一切 n , z 因 
而，对每一个 n ，: r 属于 S n 的补集，即 a ; e D n S ^. 这样，我们得到 ( U „5 „) c c n „%. 
反过来包含关系的证明，只需将我们的论证从后面往前推即可.而第二个公式的证 
明完全类似. 


1.2 概率模型 

概率模型是对不确定现象的数学描述.为了与本节讨论的基本框架保持一致， 
我们如下列出了它的两个基本构成，并用图 1.2 进行了形象化. 


概率模型的基本构成 

• 样本空间 n , 这是一个试验的所有可能结果的集合. 

• 概率律, 概率律为试验结果的集合 A (称之为 事件） 确定一个非负数 P ( A ) 
(称为事件 A 的概 率). 而这个非负数刻画了我们对事件 A 的认识或所产 
生的信念的 程度. 稍后将指出概率律必须满足的某些性质. 
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图 1.2 概率模型的基本构成 


1.2.1 样本空间和事件 

每一个概率模型都关联着一个试验,这个试验将产生一个试验结果.该试验的 
所有可能结果形成样本空间，用 n 表示样本空间.样本空间的子集，即某些试验结 
果的集合，称为事件®.对于前面提到的试验，我们不必过多地考虑其物理含义，例 
如，可以抛掷一枚硬币，也可以抛掷3枚硬币，或持续地、无限次地抛掷硬币.然而 
我们所讨论的概率模型的问题中，只涉及一个试验.所以在连续抛掷三次硬币的试 
验，只能作为一次试验，不能认为是三次试验. 

样本空间可由若干个试验结果组成，也可由无限多个试验结果组成.从数学上 
和概念上来看,有限样本空间比较简单.实际应用中，具有无限多个结果的样本空 
间也是很常见的.例如，往一个方形目标上掷飞标，可将每个可能的弹着点作为试 
验的结果. 

1.2.2 选择适当的样本空间 

在确定样本空间的时候，不同的试验结果必须是相互排斥的，这样，在试验过 
程中只可能产生唯一的一个结果.例如，当试验是掷一枚骰子的时候,不能把“1或 
3” 定为一个试验结果，同时又把“1或4” 也定义为一个结果，如果这样定义了，那 
么当掷得1点的时候，就不知道得到的是什么结果了. 

对同一个试验,根据我们的兴趣可以确定不同模型.但是确定模型时，我们不 
能遗漏其样本空间中的任何一个结果.也就是说在试验过程中不管发生什么情况, 
我们总能够得到样本空间中的一个结果.另外，在建立样本空间的时候，一方面要 
避免不必要的烦琐，同时要清楚地刻画我们感兴趣的事件. 

例 1.1 考虑两个不同的游戏，它们都涉及连续抛掷10次硬币. 

游戏1:每次抛掷硬币的时候，只要出现正面向上，我们就贏1元钱. 


①任意一个可能结果的集合，包括样本空间 n 本身和它的补集0，都可能作为事件.当然，严格来 
讲，在一个具有不可数无限多个试验结果的样本空间中，有些子集不可能定义有意义的概率.这涉 
及测度论的数学知识.但实际上我们一般不会遇到这种特殊的情况，因此我们不必考虑这种特殊 
问题. 
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游戏2:在抛掷硬币的过程中，直到出现第一次正面向上（含正面向上的那一 
次)，以前的每次抛掷我们都赢1元钱（若10次抛掷都是正面向下，我们贏得10元 
钱).若出现第一次正面向上以后还有机会抛掷硬币，则以后每次抛掷硬币时我们 
赢2 元钱，一直到第二次出现正面向上.每次抛掷得到正面向上的时候，以后每次 
抛掷硬币所赢的钱数比以前每次抛掷硬币所赢得的钱数加倍. 

在游戏1中，我们贏的钱数只与10次抛掷中正面向上的次数 有关; 而在游戏 
2中，我们的贏钱数不仅与正面出现的次数有关，也与正反面出现的顺序有关.这 
样在游戏1中，样本空间可由11个（即0,1，2，...，10)试验结果组成，而在游戏2 
中，样本空间由所有的长度为10的正、反序列组成. □ 
1.2.3 序贯模型 

许多试验本身具有序贯的特征.例如,连续抛掷一枚硬币，一共抛三次,或者连 
续观察一只股票，共观察5天，又或者在一个通信接收设备上接收8位数字.我们 
常用序 贯树形 图来刻画样本空间中的试验结果，如图 1.3 所示. 


■齙个野 



第一次转动 


试验的序贯树形图 



图 1.3 序贯树形图示例.设所考虑的试验连续两次转动有4个边的骰子 ®， 其样本空间有两 
种等价的刻画方法.在这个试验中，可能的结果是全体有序对（^),其中 j 表示第 
一次转动骰子得到的数字，：/表示第二次转动骰子得到的数字.试验结果可用左图中 
的2维格子点表示，也可以用右图中的序贯树形图表示，后者的优点是可以表示试验 
的序列特征.在序贯树形图中，每个可能的试验结果可以用一个末端的树叶表示，或 
等价地用与树叶相联系的由树叶到根部的一个路径表示 ®. 左图中阴影部分代表事件 
{(1,4), (2,4), (3,4), (4,4)}, 它表示第2次抛掷得到 4. 同一个事件可以在右图中用空 
心圆点标示的叶子集合表示.注意序贯树形图中的每一个结点可以代表一个事件，这 
^事件就是由这个结点出发的所有的叶子构成的事件.例如，在序贯树形图中用1标 
示的结点代表事件{(1，1)，（1，2)，（1,3)，（1，4)}，即第一次抛掷得1的事件 


① 当转动的骰子有6个试验结果的时候，就是指抛掷常见的正六面体.此处可理解为在桌面上转动 
一个可绕轴转动的正四边形，当停止旋转的时候，只有一边与桌面接触.本书中的骰子都可以如此 
解释.——译者注 

② 用路径表示更能显示试验的序贯特征.——译者注 
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1.2.4 概率律 

假定我们已经确定了样本空间以及与之联系的试验，为了建立一个概率模 
型，下一步就是要引进概率律的概念.直观上，它确定了任何结果或者任何结果的 
集合（称之为事件）的似然程度.更精确一点说，它给每一个事件 A ， 确定一个数 
P ( A ), 称之为事件 A 的概率.它满足下面的几条公理. 


概率公理 

(1) (非负性） 对一切事件 A , 满足 P ( A ) ^ 0. 

(2) (可加性） 设 4 和 B 为两个互不相交的集合（概率论中称为互不相容的 
事件)，则它们的并满足 

P ( AUB ) = P ( A )+ P ( B ). 

更一般地，若乂是一个互不相容的事件序列，则它们的并满足 
P(Ai U A 2 U • • •) = P^4i) + P(^ 2 ) + … . 

(3) (归 一化） 整个样本空间 0 (称为必然事件）的概率为1，即 P ( fi ) = 1. 


为了将概率律形象化，可以把样本空间中的试验结果看成质点，每一个质点有 
一个质量. P ( A ) 就是这个质点集合的总质量，而全空间的总质量为 1. 这样，概率 
律中的可加性公理就变得很直 观了： 不相交的事件序列的总质量等于各个事件的 
质量之和. 

概率的更具体的解释是频率. P ⑷= 2/3表示这样的一个 信念： 在大量重复的 
试验中事件 A 出现的频率约为 2/3. 这样的解释，虽然不总是合适的，但有时却很 
直观易懂.第5章将会重新讨论这种解释. 

概率律有许多重要的性质并没有包含到概率律的公理系统中，其原因很简单， 
它们可以从公理系统中推导出来.例如，由可加性和归一化公理可得到 

1 = P ( fi ) = P (0 U 0) = P ⑼ + P (0) = 1 + P (0), 

由这个性质可知空事件（称为不可能事件）的概率为 0 ,即 

P (0) = 0. 

现在推导另一个性质，令，乂 2 和为互不相容的事件，重复利用可加公理，可 
得到 
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P(Ai U A 2 U A 3 ) = P(^i U (A 2 U A 3 )) 

= P(A 1 )+P(A 2 UA 3 ) 

= P(A 1 ) + P(A 2 )+P(A 3 ). 

类似的推导可以 得到： 有限多个互不相容的事件的并的概率等于它们各自的概率 
之和.后面将讨论更多的性质. 

1.2.5 离散模型 

现在以实例说明构造概率律的方法.通常我们根据实际试验中的一些常识性 
假设构造概率律. 

例 I . 2 考虑抛掷一枚硬币.一共有两种结果，正面向上{丑}和反面向上 { T }. 样 
本空间为= {H,T}, 事件为 

{H,T}, {F}, {r} ， 0 . 

若硬币是均匀的，即我们相信在抛掷硬币的时候，两面具有相同的机会出现，我们 
应该确定两个结果的概率是相等的，即 P({H}) = P ({ T }). 由可加性公理和归一性 
公理可知 

P({H,T}) = P({H}) + P({T}) = 1, 

由此可推导得概率律 

P({H,T}) = 1, P ({ i ?}) = 0.5, P ({ T }) = 0.5, P ({0}) = O . 

显然,所建立的概率律满足三条公理. 

考虑另一个试验,依次抛掷三枚硬币.试验结果是由正面和反面组成的长度为 
3的序列.样本空间为 

= {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}. 

假定上述8种结果的可能性是相同的，即每个结果的概率为 1/8. 现在利用三条公 
理建立概率律.例如事件 

A = { 两个正面向上，一个反面向上 } = {HHT,HTH,THH}. 

利用概率律的可加性公理，事件4的概率等于组成该事件的试验结果的概率之和： 
P {{HHT, HTH, THH}) = P {{HHT}) + P ({ JSTi ?}) + P ({THH}) 

8 8 8 
3 

= 8 * 

相似地，任何事件的概率等于1/8乘上该事件中包含的结果的个数. 口 
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利用概率律的可加性公理以及前面例子中的推理方法，可以得到下面的结论. 


离散概率律 

设样本空间由有限个可能的结果组成，则事件的概率可由组成这个事件的试 
验结果.的概率所决定.事件 { Sl ， s 2 , …， s „} 的概率是 P ( Si ) 之和 ，即 

P ({ S1 , S2 , …， S n }) = P ( si ) + P ( S 2 ) + •••+ P ( S „). 


此处我们用简单的记号 P ( Si ) 表示事件 { Si } 的概率，而不用正式的记号 P ({ Si }). 
本书后面都按这个简化的约定书写. 

现在设样本空间为 D = { Sl , S 2 ，…，〜}，并且每个试验结果是等概率的.利用 
归一化公理可知 P ( sj ) = 1/ n , i = 1,2, ••- , n , 我们得到定律. 


离散均匀概率律（古典概型） 

设样本空间由 n 个等可能性的试验结果组成，因此每个试验结果组成的事件 
(称为基本事件）的概率是相等的.由此得到 

pU )= 含于事件4的试验结果数 _ 


现在进一步讨论一些例子. 

例 1.3 考虑连续两次转动一个有4个边的骰子（见图 1.4). 现在假定这些骰子 
是均匀的，这个假定意味着16种可能的试验结果是等可能的，即16种结果的每一 
种可能的结果 （ i ， j ) 出现的概率为 j = 1,2,3, 4). 这是一个古典概型.在计 
算一个事件的概率的时候必须数清楚这个事件所包含的试验结果数(基本事件数)， 
将这个结果数除以16 (基本事件总数）便得到这个事件的概率.下面几个事件概率 
就是用这种方法计算得到的. 

P ({ 两次点数总和为偶数 }) = 8/16 = 1/2， 

P ({ 两次点数总和为奇数 }：) = 8/16 = 1/2, 

P ({ 第一次点数与第二次点数相同» = 4/16 = 1/4， 

P ({ 第一次点数比第二次点数大= 6/16 = 3/8， 

P ({ 至少有一次转动的点数等于 4}) = 7/16. □ 
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黯!!间个敢子 



事件=丨两次转动的结果相同}、 

概率=4/16 

图 1.4 在连续两次转动一个有 4 个边的骰子的过程中的若干事件和它们的概率，计算依据离 
散均勻概率律 


1.2.6 连续模型 

若试验的样本空间是一个连续集合，其相应的概率律与离散情况有很大的差 
别.在离散情况下，基本事件的概率就可以确定概率律，但连续情况却不同.下面是 
一个例子.在这个例子中将离散模型中的等概率模型推广到连续的情况. 

例 1.4 在赌场中有一种称为幸运轮的赌具.在轮子上均勻连续地刻度，刻度范围 
为0到 1. 当转动的轮子停止时，固定的指针会停留在刻度上.这样，产生的试验结 
果是[0，1]中的一个数，指针所指向的位置的刻度.因此样本空间是 D = [0，1].假 
定轮子是均勻的，因此可以认为轮子上的每一个点在试验中都是等可能的.但一个 
单点在试验中出现的可能性有多大呢？它不可能是正数，否则的话，若单点出现的 
概率为正，利用可加性公理，可导致某些事件的概率大于1的荒谬结论.因此单个 
点所组成的事件的概率必定为 0. 

在本例中，可定义子区间 [ a ,&] 的概率为 b - a . 更复杂的集合的概率可以定义 
为这个集合的长度 .® 这样定义的概率满足概率律的3条公理，因此本例中定义的 
概率是符合要求的概率律. □ 
例 1.5 罗密欧和朱丽叶约定在某时刻见面，而每个人到达约会地点的时间都会有 
延迟，延迟时间在0 〜 1小时.第一个到达约会地点的人会在那儿等待15分钟，等 
了 15分钟后若对方还没有到达约会地点，先到者会离开约会地点.问他们能够相 
会的概率有多大？ 

考虑直角坐标系的单位正方形 D = [0,1] x [0,1]. 正方形中的每个点的两个坐 


① [0,1] 的一个子集 S ' 的长度定义为 f s dt , 对于比较简单的子集，可利用通常的微积分计算这个积 
分.对于某些不寻常的集合，这个积分可能没有合适的定义，这些事情属于更高深的数学处理的问 
题.顺便指出，用长度刻画概率律的合法性蕴涵了单位区间是一个不可数无限集.不然的话，由于 
每个单点的概率为零，可导致 [0,1] 的概率为0的结论，这与概率的归一化公理相矛盾. 
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标分别代表他们可能的延迟时间.每个点都可以是他们的延迟时间，而且是等可能 
的.由于等可能性的特点，我们将 n 的子集出现的概率定义为这个子集的面积.这 
个概率律满足概率的 3 条公理.罗密欧和朱丽叶能够相会的事件可用图 1.5 中阴 
影部分表示.它的概率等于 7/16. □ 



0 1/4 


图 1.5 事件 M 代表罗密欧和朱丽叶的相互等待时间不超过15分钟， M 是图中阴影部分 
(见例1.5)，即 

M = {{ x , y)\\x - y | ^ 1/4,0 ^ x < l ,0^ y < l }. 

M 的面积等于1减去两个没有阴影的三角形的面积之和，即 1-(3/4)-(3/4)= 7/16. 
因此，他们能够相会的概率为7/16 

1.2.7 概率律的性质 

由概率公理可以推导出很多性质，下面列举若千性质. 


概率律的若干性质 

考虑一个概率律，令 AS 和 C 为事件. 

⑷若 A c S 则 P 0 K P ㈤ . 

(b) P(yl UB) = P ㈤ + P(B) - P(yl 门 S). 

( c ) P(AUB)^P(A) + P(B). 

(d) P(AUBUC) = P ㈤ + P(A C HB) + P(A C nB c nC). 


这些性质以及其他类似的性质,都可以形象化地用韦恩图证明（见图 1.6) .注 
意，性质 （ c ) 可以推广成 

P(Ai U ^2 U • • • U ^ p (^)- 

i=l 

现在证明这个推广的结果.将性质 （ c ) 用于事件也和 A 2 U … U 得到 

P(Ai U A 2 U • • • U A n ) ^ P(^i) + p(A 2 u ... u A n ). 

进一步将 （ C ) 用于事件 A 2 和為 5 U … U 得到 
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P ( 乂 2 U A3 U • • • U A n ) 彡 P(A2) + P(A3 U • • ■ U A n ). 
如此继续下去,最后将诸不等式相加，便得到所需结果. 



图 1.6 利用韦恩图直观地验证概率律的性质⑷， ( b )， ⑷和 （ d ). 设 A c S , 则 B 是两个不 
相容的事件 乂和 ， n S 的并（见图 （ a )). 利用可加性公理得 


P ( B ) = P ( A ) + P ( A C DB )^ P ( A ), 

其中不等式利用了概率的非负性公理.性质 （ a ) 得证. 

由图 （ b )， 可将事件和 S 分解成不相容的事件 之和： 

AUB = AU ( A C ( 1 B ), B = ( AnB ) u ( A c nB ). 

利用可加性公理，得到 

P(A UB ) = P04) + P ( A C n B ), P ( B ) = p(yl ns) + P ( A C n B ). 

第一式减去第二式以后经过各项移动合并得到 P(AU B ) = P (^) + P ( B ) - P{A n B ), 
即性质 （ b ) 成立.利用概率的非负性公理得到 p (4 nB ) > 0,从而 P ( AUS ) ^ 

P ⑷ + P ( S ) 成立，性质 ㈦ 得证. 

由图 （ c ), 可以看出事件 ^UBUC 可以分解成3个互不相容的事件 的并： 
A\JBVJC = A ^{ A c ^ B ) VJ { A c nB c f \ C ), 

重复利用可加性公理可得到性质 （ d ). 

1.2.8 模型和现实 

概率理论可以用来分析现实世界的许多不确定现象.这个过程通常分成两个阶段. 
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( a ) 第一阶段，在一个适当的样本空间中给出概率律，从而建立概率模型.在这 
个阶段，没有关于建立模型的一般规则，只要你所建立的概率律符合概率的三条公 
理就行.有些人会怀疑所建立模型的真实性.有时，人们宁愿使用“错误”的模型, 
其理由是“错误”的模型比“正确”的模型简单且易于处理.这种处理问题的态度 
在科学和工程学中很普遍.在实际工作中，选择的模型往往既要准确、简单又要兼 
顾其易操作性.此外，统计学家还依据历史数据和过去相似试验的结果，利用统计 
方法确定模型.这将在第8章和第9章中进行讨论. 

( b ) 在第二阶段，我们将在完全严格的概率模型之下进行推导，计算某些事件 
的概率或推导出一些十分有趣的性质.第一阶段的任务是建立现实世界与数学的 
联系，而第二阶段则严格限制在概率公理之下的逻辑推理.在后一阶段，如果涉及 
的计算很复杂或概率律的陈述不简明的情况下，推理和理解就会遇到困难.但是所 
有的问题将会有一个准确的答案，不会产生歧义.只要有足够高的能力，所有的困 
难都将化为乌有. 

在概率论中充满这样的“悖 论”： 对同一个问题，不同的计算方法得到不同的 
结论.在这种模棱两可的概率律中选定模型会导致结论的不确定.贝特朗悖论是一 
个著名的例子（见图 1.7). 


概率论发展简史 

• 公元前. 在古希腊和古罗马时期，机会游戏十分盛行.但是这个时期关于 
游戏的理论还没有发展起来.究其原因，那时侯希腊的数宇系统不能提供 
代数运算发展的机会.在科学分析基础上的概率论一直等到印度和阿拉 
伯发明了现代算数系统（第一个千年的后半叶)，以及文艺复兴时期产生 
了大量的科学思想，才有机会发展. 

• 16世纪. 卡尔达诺，一个光彩夺目同时富有争议的意大利数学家出版了 
第1本关于机会游戏的书，书中给出了掷骰子和扑克游戏中随机事件的 
概率的正确计算方法. 

• 17 世纪. 费马和帕斯卡之间的一篇通讯中提及几个十分有趣的概率问题， 
推动了这个领域内的研究热潮. 

• 18世纪. 雅可比 • 伯努利研究了重复投币试验序列并引入了第一条大数 
定律.这条大数定律为联系理论概率与经验事实打下了基础.后面的数学 
家，诸如丹尼尔 • 伯努利、莱布尼兹、贝叶斯、拉格朗日等人对理论概率 
论的发展和实际应用也作出了巨大贡献.棣莫弗引入了正态分布并证明 
了第一个中心极限定理. 

• 19 世纪. 拉普拉斯在他的一本很有影响的书中确立了概率论在定量研究 
领域中的重要地位.同时他本人对概率论作出了许多原创性的贡献，包括 
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推导了更一般形式的中心极限定理.勒让德和高斯将概率论应用到天文 
预测，并且应用了最小二乘法，他们的工作大大地拓展了概率论的应用领 
域.泊松出版了一本很有影响的书，其中包括了他的很多原创性的成果，以 
他的姓名命名的泊松分布也在其中.切比雪夫和他的学生马尔可夫、李雅 
普诺夫等研究了极限定理，在这个领域内提高了数学的严格性的标准.在 
此时期，概率论被认为是自然科学的一部分，它的主要任务是解释物理现 
象. 在这种思想的主导之下，概率被解释为重复试验中相对频率的极限. 

• 20 世纪. 现在已经不再以相对频率作为概率论的基础概念.代之以由科 
尔莫戈罗夫引入的普遍适用的概率论公理系统.与数学的其他分支一样， 
在公理系统的基础上发展起来的概率论只依赖于逻辑的正确性，而与实际 
物理现象的联系无关.然而，由于概率论能够描述和解释现实世界中绝大 
部分的不确定性现象，因而在科学和工程中，概率论得到广泛应用. 



图 1.7 贝特朗 悖论. 该例子由贝特朗于1889年提供，它说明这样一个 原理： 解决一个实际问 
题的时候，必须正确无误地写出概率律.设在一个圆内有一个正三角形，内接于圆周. 
现在随机地选定一个弦，问其长度大于内接正三角形的边的概率等于多少？其解答依 
赖于“随机地选定”的确切定义.图中 （ a ) 和 （ b ) 的两种方法导致相互矛盾的结论. 

在图⑷中，取一半径4丑，在 AS 上随机地取一个点 C . 所谓随机地取点是指 
AB 上所有的点具有相同的机会被取到.通过点 C , 作一条弦垂直于由初等几 
何的知识可知，当 C 点的位置恰巧在 AB 的中点时，弦的长度刚好等于三角形的边 
长，而远离圆心时，弦的长度 减小. 这样弦的长度大于内接正三角形的边长的概率等 
于 1/2. 

在图 （ b ) 中，圆周上取一点 V 作为 顶点. 通过 V 先画一条切线，然后随机地画 
一条通过 V 的直线.记直线与切线的夹 角为！ 由于这条直线是随机地画的，可以认 
为夹角#是在 (0,^) 上均勻地分布的.现在考虑这条直线割圆得到的弦的长度.由 
初等几何的知识可知，当企处于 (7 t /3,2 jt /3) 的范围内，弦的长度大与三角形的边长. 
由于0取值于 （0， Jt )， 故这根弦大于内接正三角形边长的概率是1/3 
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1.3 条件概率 


条件概率是在给定部分信息的基础上对试验结果一种推断.下面是一些例子. 

( a ) 在连续两次抛掷骰子的试验中，已知两粒骰子的点数的总和为9,第一粒骰 
子的点数为6的可能性有多大？ 

( b ) 在猜字游戏中，已知第一个字母为 t ， 第二个字母为 h 的可能性有多大？ 

( c ) 在査体时，为检查是否患某种疾病需要检测某项指标.已知某人的该项指 
标为阴性，问这个人得病的可能性有多大？ 

( d ) 在雷达显示屏上出现一个点，这个点代表远处有一架飞机的可能性有多大？ 
用更确切的话说，给定一个试验、与这个试验相对应的样本空间和概率律，假 

设我们已经知道给定的事件 S 发生了，而希望知道另一个给定的事件4发生的可 
能性.因此，我们要构造一个新的概率律，它顾及了事件 S 已经发生的信息，求出 
任何事件4发生的 概率. 这个概率就是给定 S 发生之下事件 A 的条件概率,记作 
P ( 綱 . 

这个新的条件概率必须是合格的概率律，即满足概率的3条公理.同时当原来 
的概率律为等概率模型时，其相应的条件概率也应当与直观相符合.例如，在抛掷 
骰子的试验中一共有6种等概率的试验结果.如果我们已经知道试验的结果是偶 
数，即2,4,6这3种结果之一发生.而这3种结果发生的可能性应该是相等的.这 
样，得到 

P (试验结果是6 | 试验结果是偶数 ）= I 

从这个结果的推导过程看出，对于等概率模型的情况，下面的关于条件概率的定义 
是合适的，即 

事件4 ns 的试验结果数 
11 卜 事件 B 的试验结果数_ 

将这个结果推广，我们得到下面的条件概率之 定义： 


P(^l B) = 


P(Ans) 

P(B) 


其中假定 P ( B ) > 0. 如果 S 的概率为 o ，相应的条件概率是没有定义的.总而言 
之， P 0| S ) 是事件 Ani ? 的概率与事件 s 的概率的比值. 

1.3.1 条件概率 是一个 概率律 


对于给定的事件 S ， 条件概率 P ( A | B ) 形成了样本空间上的一个概率律，即条 
件概率满足概率的3条公理.非负性是明显的.又由于 
P(Qn_B) P(B) 

P ( B ) = P { B ) =， 


pm = 
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说明归一化公理也是满足的.现在验证可加性.设 Ai 和是任意两个不相容的 
事件， 


P(A X UA 2 |B) = 


P (( A 1 UA 2 ) nB ) 

PCS) 

p(04i n s) u ( A 2 n B )) 
= P(B) 

P(Ai ns) + p ( A 2 n B ) 
= P(S) 

n B ) p ( A 2 n B ) 
P(B) + P(S) 

= P ( A 1 \ B ) + P ( A 2 \ B ), 


此处第三个等式利用了事件 n_B 和 a 2 ns 的不相容性和无条件概率的可加性. 
关于可数个互不相容的事件的可加性公理的验证是类似的. 

由于我们已经证实了条件概率是一个合格的概率律，所有关于概率律的性质对 
于条件概率都是成立的.例如将 P(A UC) ^ P ( A ) + P ( C ) 转变成条件概率的性质, 
变成 


P(AU C \ B ) < P ( A \ B ) + P { C \ B ). 

注意到 P ( B \ B ) = P ( B )/ P ( B ) = 1, 条件概率完全集中在 S 上，这样，我们也可以将 
B 以外的结果排除掉,并将 B 看成新的样本空间. 

现在将条件概率的性质加以总结. 


条件概率的性质 

• 设事件 S 满足 P ( B ) > 0,则给定 S 之下，事件4的条件概率由下式给出 


P (綱= 


p(Ans) 
P ㈤ 


这个条件概率在同一个样本空间 n 上给出了一个新的（条件）概率律.凡 
是现有的概率律的所有性质对这个条件概率都是适用的. 

• 由于条件概率所关心的事件都是事件 S 的子事件，可以把条件概率看成 
B 上的概率律，即把事件 S 看成全空间或必然事件. 

• 当试验的 D 为有限集，并且所有试验结果为等可能的情况下，条件概率律 
可由下式给出 


PMim = 事件 A ns 的试验结果数 
u 事件 s 的试验结果数 
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例 1.6 在连续三次抛掷一个两面均匀的硬币的试验中，我们希望找到 P ( A | S )， 其 
中 A 和 S 由下式给出 

A = •[正 面出现的次数多于反面出现的次数}，5 = ■(第一次抛掷得到正面 }. 

样本空间由下列8个试验结果 组成： 


= {HHH ， HHT, HTH, HTT, THH, THT, TTH, TTT}. 


由于硬币两面的均勻性，可以假定这8个试验结果是等可能的.事件 B 由4个试 
验结果 HHH, HHT, HTH, HTT 组成，因此 

P ⑻ = 鲁 _ 

而事件 AHB 由结果 HHH, HHT, HTH 组成,其概率 


P(^ns) = | 


这样，得到 


P ( 綱 = 


P(A n B) 
P(B) 


3/8 

4/8 


由于所有的试验结果是等概率的，我们也可用简化的算法计算 P(A\B). 我们不必 
计算 p ( s ) 和 P(A n s )， 而直接计算事件 a 门 S 和 S 中的基本事件个数（分别等 


于3和4)，相比即得 3/4. □ 

例 1.7 在连续两次转动一个均勻的具有4边的骰子的试验中，假定所有16种试 
验结果是等可能的，分别记 X 和 y 为第一次和第二次转动的结果.现在希望计算 
条件概率 P ( A | B ), 其中 


A = {max(X, Y) = m}, B = {min(X, Y") = 2}, 

而 m = 1 , 2 , 3,4. 像上一个例子一样，可以有两种计算方法.一种方法是首先计算 
P(AHB) m P(B), 然后按条件概率的定义计算 P ( A | B ). 而 P ( AnB ) 和 P ⑻的 
计算方 法是： 数清楚这些事件中的试验结果的个数,再除以 16. 另一种方法是直接 
将4 n B 中的试验结果的个数除以 B 中的试验结果的个数（见图 1.8). □ 

例 1.8 有两个设计团队，一个比较稳重，记做另一个具有创新性,记做 iV . 要 
求他们分别在一个月内做一个新设计.从过去的经验 知道： 

(a) C 成功的概率为 2 / 3 ; 

(b) N 成功的概率为I/ 2 ; 

(c) 两个团队中至少有一个成功的概率为 3/4. 

已知两个团队中只有一个团队完成了任务.问这个任务是 7 V 完成的概率有多 


大？ 
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所有结果是等可能的. 
概率 = 1/16 



3 4 


第一次转动 X 

图 1.8 例 1.7 的图示.试验的样本空间由连续两次转动具有4边的骰子的所有可能结果组 
成，刻画条件的事件 S = { min ( X , y ) = 2} 由5个阴影部分的点所代表的试验结果 
组成.事件 A = { max ( X , y ) = m } 与事件 S 的相交部分当 m = 3或4的时候，具 
有两个试验结果，当 m = 2的时候,只有一个试验 结果, 而 m = 1的时候没有公共元 
素.这样，我们得到 

1 2/5 ， m = 3 或4， 

1/5, m = 2, 

0 , 771 = 1 . 

现在共有4种可能的结果， 

SS : 双方成功 FF : 双方失败 

SF-.C 成功， 7 V 失败 FS-.N 成功， C 失败 


现在将⑷， （ b ) 和 ㈦ 写成概率等式 

P(SS) + P(SF) = ^, P(SS) + P{FS) = ^, P(SS) + P{SF) + P(FS) = ^. 
结合归一化公理 

P{SS) + P{SF) + P(FS) + P(FF) = 1, 




□ 
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1.3.2 利用条件概率定义概率模型 

在为实验建立具有序贯特征的概率模型的时候,通常很自然地首先确定条件概 
率，然后确定无条件概率.在这个过程中，经常使用的是条件概率公式 P ( AnB ) = 
P { B ) P ( A \ B ). 

例 1.9 (雷达探测器）有一台雷达探测设备在工作,若在某区域有一架飞机，雷达 
以99%的概率探测到并报警.若该地区没有飞机，雷达会以10%的概率虚假报瞀. 
现在假定一架飞机以5%的概率出现在该地区.问飞机没有出现在该地区而雷达 
虚假报警的概率有多大？飞机出现在该地区而雷达没有探测到的概率有多大？ 
现在可以用图 1.9 的序贯树形图表达一个事件.记 
4 = {飞机出现}， 

B = { 雷达报警}_ 

而它们的补集为 

A c = ■[飞 机不出现}， 

B c = •[雷达未报警 

相应的概率可以在展示样本空间的序贯树形图 1.9 上得到表示.每个试验结果可用 
树形图的叶子表示，它的概率等于由叶子到根部的枝条上显示的数据的乘积.所求 
的概率为 

P (飞机不出现、报警） = P ( A c nS ) = P ( A c ) P ( B | A c ) = 0.95 x 0.10 = 0.095， 

P (飞机出现、= P ( AfiB c ) = P ( A ) P ( S C |^) = 0.05 x 0.01 = 0.000 5. □ 



图 1.9 例 1.9 有关雷达探测的事件的序贯树形图表示 
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由上例的启示，我们可以利用序贯树形图计算概率，其规则如下. 

(a) 我们设立一个序贯树形图，使得我们所关心的事件处于图的末端（叶子)，由 
根结点一直到叶子的路径上的每一个结点代表一个事件.而我们所关心的事件的发 
生是由根结点一直到叶子的一系列事件发生的结果. 

( b ) 在路径的每个分枝上写上相应的条件概率. 

(c) 叶子所代表的事件是相应的分枝上的条件概率的乘积. 

数学上可以这样来 表示： 事件4发生的充要条件是一系列事件也，…，人全 
都发生 ， IP A = Ai n A 2 n ■ ■ ■ n A „. A 发生就是先也发生，接着 A 2 发生等,正如 
序贯树形图上 n 个结点上的事件顺次发生 . A 发生的概率由如下规则给出（也可 
见图 1 . 10 ). 



图 1.10 乘法规则的序贯树形图表示.事件4 = nUAi 用一段路径表示，或等价地用这一段 
路径的末端叶子表示，而路径上的每段树枝表示相应的事件 ,,4 n . 在树枝的 
旁边同时注明相应的条件概率. 

路径的末端相应于事件 a = 其概率为由根部到该点的树枝 

上标示的条件概率的乘积. 

P(n? =1 ^) = p^op^iaop^IA! 门义 2 ) ... P(A„| n™^ 1 Ai). 

注意，在图上每一个中间的点也代表一个事件，例如第 i + 1个结点代表事件 n 
A 2 n --- nAi . 它们的概率等于相应的条件概率的乘积，这些乘积因子都已在相应的 
树枝上方列明.例如，事件 A 1 nA 2 nA 3 相应于图上的第4个结点，其概率为 

P(Ai n n a 3 ) = nA 2 ) 


乘法规则 

假定所有涉及的条件概率都是正的，我们有 

p ( nr = 1 Ai ) = P ( A 1 ) P ( A 2 \ A 1 ) P ( A 3 \ A 1 ha 2 )..- p ( A n \ n ^ 1 A t ) 


乘法规则可从下式得到 证实： 由下列恒等式 


P(nr=i^) = P(Ai) 


P ( A 2 nA 1 ) 

P(Ai) 


p(-42 n j 4 i n A3 ) 
P(Ai n a 2 ) 


p (门 LiA) 
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再利用条件概率的定义，上式右端变成 

n A 2 ) • • • P(A n \ n ^! 1 Ai). 

对于两个事件和的情况，乘法规则就是条件概率的定义. 

例 1.10 从52张扑克牌中连续无放回地抽取3张牌.我们希望求出3张牌中没 
有红桃的概率.我们假定，在抽取的时候，一堆牌中的每一张牌都是等可能地被抽 
取的.根据对称性，52张牌中任意3张牌的组合被抽取的可能性都是相同的.一个 
想法简单但是计算麻烦的方 法是： 数清楚不含红桃的3张牌的可能组数，再除以所 
有3张牌的可能组数.现在利用试验的序贯树形图表示法以及乘法规则进行计算 
(见图 1.11). 



图 1.11 例 1.10 中抽取3张扑克牌的试验的序贯树形图表示 

定义 

A i = {第纟张牌不是红桃}， * = 1,2,3. 

现在利用乘法规则 

P(^i n^ 2 nA 3 ) = P^OP^IAOP^I^n^), 

计算3张牌中没有红桃的概率 P ( A , n 戌 n A 3 ) .由于52张牌中有39张不是红桃， 
我们得到 

由于第一次抽出一张不是红桃，剩下51张牌中有38张不是红桃，因此 
P(A 2 |Ai) = 

最后，由于前面两张不是红桃，剩下50张牌中有37张不是红桃，这样 
P ( A 3 \ A 1 nA 2 ) = ^-. 
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这些条件概率列于序贯树形图（图 1.11) 的相应树枝的上方.现在只需将路径上的 
(条件）概率相乘，得到 


p ( j 4 i n 乂 2 n = 


39 38 37 
52 ' 51 ' 50 


注意，由于在序贯树形图上已经标明了许多（条件）概率,其他的一些事件也可 
以相应地计算.例如 


P (第一张不是红桃，第二张牌是红桃） = |- g . 

P (第一、第二两张不是红桃,第三张牌是红桃 ）= g g □ 

52 51 50 

例 1.11 一个班由4个研究生和12个本科生组成，随机地将这16人分成4个4 
人组.问每个组分得一个研究生的概率有多大？在这个问题中，什么是随机地分组 
呢？可以将分组问题看成随机地选位子（不妨将位子 Sl ，…， S 4 看成第一组，而将 
位子郎，…，看成第二组,等等 )， 16个位子中每个人都有相同的可能性选择任意 
一个位子，当若干个位子被某些学生选定以后，没有选定位子的同学以完全平等的 
资格去选择剩下的位子.下面基于图 1.12 所示的序贯树形图，使用乘法规则来计 
算所需概率.现在设4个研究生的代号为1，2, 3, 4. 考虑事件 

^1 = { 学生1和2分在不同的组}， 

A 2 = { 学生1，2和3分在不同的组 }, 

A 3 = ■[学 生1，2, 3和4分在不同的组 
我们所求的概率为 P ( A 3 ). 利用乘法 规则： 

P ( A 3 ) = P ( A 1 nA 2 n A 3 ) = n A 2 ). 


现在不妨设学生 1 已经选定了位子，在剩余的15个位子中只有12个位子与学生 
1分在不同的 组内. 显然学生2与学生1分在不同组内的可能性为12/15,即 


类似地，当学生1和学生2已经分在2个不同组以后，学生3只有选择剩下14个 
位子中的8个位子,才能与1, 2处于不同的组.这说明 

P ( A 2 \ Ai ) = ^- 

当学生1，2和3被分派在不同组的条件下,学生4只有在13个位子中选择其中的 
4个位子之一，才能与他们处于不同的组内.这样 
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将3个概率相乘,得到所求的概率为 

12 _ 8 _ £ 

15 ' 14 ' 13' 

反映这种试验的序贯树形图见图 1.12. □ 



例 1.12 (蒙特霍问题，也称三门问题）这是美国有奖游戏节目中的一个经常出现 
的智力测验问题.你站在3个封闭的门前,其中一个门的门后有一个奖品.当然，奖 
品在哪一个门后是完全随机的.当你选定一个门以后，你的朋友打开其余两扇门中 
的一扇空门，显示门后没有奖品.此时你可以有两种选择，保持原来的选择,或改选 
另一扇没有被打开的门.当你作出最后选择以后，打开的门后有奖品，这个奖品就 
归你的了.现在有3种 策略： 

(a) 坚持原来的 选择； 

(b) 改选另一扇没有被打开 的门； 

(c) 你首先选择1号门，当你的朋友打开的是2号空门，你不改变主意.当你的 
朋友打开的是3号空门你改变主意，选择2号门. 

最好的策略是什么呢？现在计算在各种策略之下赢得奖品的概率. 

在策略 （a) 之下，你的初始选择会决定你的输贏.由于奖品的位置是随机地确 
定的，你得奖的概率只能是 1/3. 

在策略 （b) 之下，如果奖品的位置在你原来指定的门后（概率为 1/3), 由于你 
改变了主意，因而失去了获奖的机会.如果奖品的位置不在你原来指定的门后（概 
率 2/3), 而你的朋友又将没有奖品的那一扇门打开，当你改变选择的时候,你改变 
选择后所指定的门后一定有奖品.所以你获奖的概率为 2/3. (b) 比 （a) 好. 

在策略 （c) 之下，由于提供的信息不够充分，还不能确定你贏得奖品的概率.答 
案依赖于你的朋友打开空门的方式.现在讨论两种情况. 

第一种情 况是： 当奖品的位置是在1号门后，假定你的朋友总是打开2号空门 
(当奖品是在2号或3号门后的时候,你的朋友没有选择的余地).现在假定奖品是 
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在1号门后（概率为1/3)，你的朋友打开2号门，你不改主意，你得到奖品.当奖 
品在2号门后面的时候（概率为1/3)，你的朋友打开3号空门，你改变主意，你也 
得到奖品.当奖品在3号门后面的时候（概率为1/3)，你的朋友打开2号空门，你 
不改变主意，你就失去了得奖的机会.这样，你获奖的概率为 2/3. 说明在这种情况 
下，策略 （c) 与策略 （b) —样好. 

第二种情 况是： 假定奖品是在1号门后，你的朋友随机地打开2号门或3号 
门（概率各为 1/2). 当奖品在1号门后的情况下（概率为1/3)，你的朋友打开2号 
门，此时按你的策略，你不改主意，得到了奖品（概率 1/6). 但是，如果你的朋友打 
开的是3号空门，此时你改变了主意，失去了得奖的机会.如果奖品是在2号门后 
(概率1/3)，你的朋友打开3号空门，按你的策略，你改变主意，你就贏得奖品.如 
果奖品是在3号门后（概率1/3)，你的朋友打开2号空门，按你的策略你不改变主 
意，你就失去奖品.综合起来，在你的朋友这种开门策略之下，你赢得奖品的概率为 
1/6 + 1/3 = 1/2. 这时候,策略⑷比策略㈤差. 口 


1.4 全概率定理和贝叶斯准则 

本节中我们将讨论条件概率的某些应用.我们首先引入一个计算事件概率的 
定理_ 


全概率定理 

设先 ，也 ，…，人是一组互不相容的事件，它形成样本空间的一个分割（每一 
个试验结果必定使得其中一个事件发生！） • 又假定对每一个 i ， P ( A ) > 0_则对 
于任何事件 S ， 下列公式成立 

P ( B ) = P(Ai nB ) + ■■■ + P ( A n n B ) 

= P ( A 1 ) P ( B \ A 1 ) + ••• + P ( A n ) P ( B \ A n ). 


图 1.13 形象化地展示了全概率定理的内容并给出了证明.直观上，将样本空 
间分割成若干事件 A 的并 ( A ^-.^ An 形成样本空间的一个分割！ ）， 然后任意事 
件 S 的概率等于事件 S 在次 发生的情况下的条件概率的加权平均，而权数刚好 
等于这些事件次的无条件概率.这条定理的一个主要应用是计算事件 S 的概率. 
直接计算事件 S 的概率有点难度，但是若条件概率 P ( B \ Ai ) 是已知的或是很容易 
推导计算时，全概定理就成为了计算 P(5) 的有力工具.应用这条定理的关键是找 
到合适的分割也，…，人，而合适的分割又与问题的实际背景有关. 
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图 1.13 全概率定理的形象化展示和证明.由于事件 A 1; A 2 ,---,A n 形成样本空间的一个分 
割，事件 S 可以分解成不相交的 n 个事件的并，即 

•B = n s) u... u ( 义 „ n B). 

利用可加公理，得到 

P(fl) = P(^i nB) + ■■■ + P(A n nB). 

利用条件概率之定义，我们得到 

P(A i nB) = P(A i )P(B\A i ). 

将上式代入前一式中得到 

P(B) = PCAOP^I^) + ■■• + P(^L n )P(B|A n ). 

我们也可以用等价的序贯树形图来说明全概率定理（右图).叶子次门5的概 
率等于由叶子到根部上的概率的乘积 P ^ OPCSI ^)- 而事件 S 由图上显示的3个 
叶子组成，将它们的概率相加就得到 P ( S ) 

例 1.13 你参加一个棋类比赛，其中50%是一类棋手，你贏他们的概率为 0.3; 25% 
是二类棋手,你赢他们的概率是 0.4; 剩下的是三类棋手，你贏他们的概率是 0.5 .从 
他们中间随机地选一位棋手与你比赛，你胜算的概率有多大？ 

记戌表示与你下棋的棋手的类别.依题意 

P(^i) =0.5, P(A 2 ) = 0.25, P(^ 3 ) = 0.25. 

记 B 为你贏得比赛的事件.我们有 

P(S|A!) = 0.3, P ( B \ A 2 ) = 0.4, P(B|A 3 ) = 0.5. 
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这样，利用全概率定理，你在比赛中胜出的概率为 

P(B)= + P (^ 2 ) P ( S |^ 2 ) + P ( A 3 ) P ( B | A 3 ) 

= 0.5-0.3+ 0.25-0.4+ 0.25-0.5 

= 0.375. □ 

例 1.14 你转动一个均匀的有4个边的骰子.如果得到1或2,你可以再转动一 
次，否则就停止转动.你转动得到的点数总和至少为4的概率有多大？ 

记人 为第一次转动均匀骰子后所得到的点数为 i 的事件.注意，对每一个 
P (人 ） =1/4.记 S 为转动得到的点数总和至少为4的事件.在也发生的条件下， 
只有第二次转动得到3或4,总点数才能至少为4,这样，事件 S 的条件概率为 1/2. 
类似地，如果第一次转动时 A 2 发生，只有当第二次转动得到2, 3或4时，事件 S 
才发生,相应的条件概率为 3/4. 如果第一次转动时发生，此时不容许转动第二 
次.因此在这种情况下得到的点数总和在4以下 .® 因此 

P (寧 ◦ = •， P(B\A 2 ) = P (寧 3 ) = 0， P(B\A 4 ) = 1. 

利用全概率定理，得到 

nB) = \'\ + \-\ + \- Q+ \- l = h- □ 

在具有序贯特征的试验中，可以多次重复地利用全概率定理进行概率计算.下 
面是一个例子. 

例 1.15 爱丽丝在上一门概率课.在每周周末的时候,她可能跟上课程或跟不上课 
程. 如果她在某一周是跟上课程的，那么她在下周跟上课程的概率为 0.8( 下周跟不 
上课程的概率为 0.2). 然而，如果她在某一周没有跟上课程，那么她在下周跟上课 
程的概率变为0. 4 (下周跟不上课程的概率为 0.6). 现在假定，在第一周上课以前认 
为她是能够跟上课程的.经过3周的学习，她能够跟上课程的概率有多大？ 

令 认 和玖分别表示经过 i 周学习后跟上和跟不上课程的事件.按照全概率 
定理， P ( C / 3 ) 可由下式给出 

P(U 3 ) = P(U 2 )P(U 3 \U 2 )+ P(B 2 )P{U 3 \B 2 ) = P ( C / 2 ) - 0.8 + P ( S 2 ) _ 0_4. 

对于 P ( C / 2 ) 和 P ( B 2 ), 又可以利用全概率定理 

P ( f / 2 ) = + P (^) P ([/2|执）= P ^ O - O.S + P (历 ）. 0.4， 

P ( S 2 ) = P ( C / 1 ) P ( B 2 | i 7 a )+ P(B 1 )P(B 2 \B 1 ) = P ([/!) • 0.2 + PO ^) . 0_6. 

①如果第一次转动时 A 4 发生，虽然不容许第二次转动骰子，但是你得到的点数总和已为 4. 


译者注 
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最后，由于爱丽丝在刚刚开始上课的时候,是能够跟上课程的，我们有 
P^a) = 0.8, P(B X ) = 0.2. 


从前面3个方程式解得 


p([/ 2 ) = 0.8. 0_8 + 0.2 • 0.4 = 0.72, 

P(5 2 ) = 0.8-0.2+ 0.2-0.6 = 0.28, 

再利用关于 pm 的等式，得到 

P(t/ 3 ) = 0.73 - 0.8 + 0.28 - 0.4 = 0.688. 

我们也可以为计算 P ( C / 3 ) 构造一个试验的序贯树形图.将随机事件％进行分 
解,利用概率论的乘法与加法规则计算 P ( C / 3 ). 然而，有时候，基于全概率定理的计 
算方法更加方便.例如，我们希望计算经过20周的学习以后，爱丽丝能够跟上课程 
的概率 P ( C / 20 ). 此时,按照序贯树形图进行计算十分烦琐，因为树形图有20层，有 
2 20 个树叶.另一方面，利用全概率定理，得到递推公式 

P(C/ i+1 ) = P(K)_0.8 + P ( 氏 ） .0.4 ， 

P ( B i+1 ) = P ( U i )- 0.2 + P ( B i )- 0 . 6 , 

加上初始条件 P ( C / i ) = 0.8, P ( Si ) = 0.2 后,那么在计算机上计算是十分简便的 •口 

推理和贝叶斯准则 

全概率定理是与著名的贝叶斯准则联系在一起的.贝叶斯准则将形如 P ( A \ B ) 
的条件概率与形如 P ( B \ A ) 的条件概率联系了起来. 


贝叶斯准则 

设 ， A „ 是一组互不相容的事件，它形成样本空间的一个分割（每一 
个试验结果必定使得其中一个事件发生！） . 又假定对每一个 i ， P ( 人） > 0. 则对 
于任何事件只要它满足 P ( B ) > 0, 下列公式成立 


P(Ai\B) = 


PjA^PjBlAi) 
~ "P(S) ^ 


__ 

+ ••• + P ( A n ) P ( B \ A n y 


为证明贝叶斯准则，只需注意到 P ( A ) P ( B | 次）与 P (木 |_ B ) P ⑼是相等的，它 
们都等于 P (次 n S ), 这样得到了第一个等式.至于第二个等式，只需对 P ( S ) 利用 
全概率公式即可. 
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贝叶斯准则还可以用来进 行因果推理. 有许多“原因”可以造成某一 “结果”. 
现在设我们观察到某一结果，希望推断造成这个结果出现的“原因”.现在设事件 
，…，是原因，而 S 代表由原因引起的结果. PGBIA ) 表示在因果模型中由 
“原因造成结果 S 出现的概率（见图 1.14). 当观察到结果 S 的时候,我们希 
望反推结果 B 是由原因次造成的概率 P ( Ai \ B ). P ( Ai \ B ) 为由于代表新近得到的 
信息 B 之后人出现的概率,称之 为后验概率， 而原来的 P ( Ai ) 就称 为先验概率. 



原因3: 

其他原因 


原因1: 

恶性肿瘤 


原因2: _ 

良性肿瘤 X 



图 1.1 4 一个蕴涵于贝叶斯公式中的推论的例子.我们在某病人X光片中发现一个阴影（事 
件 B , 代表“结果”）.我们希望对造成这种结果的3个原因进行分析.这3个原因 
彼此不相容，并且造成这个结果的原因一定是三者之一 ：原因 1( 事件是恶性肿 
瘤，原因 2( 事件4 2 )是良性肿瘤，原因 3( 事件 A 3 ) 是肿瘤外的其他原因.假定我 
们已经知道 P 0 O 和 P ( B \ Ai),i = 1,2,3. 现在我们己经发现了阴影（事件 S 发生), 
利用贝叶斯公式，这些原因的条件概率为 

P (A \ B ) = _ P (耒) P ( g | 先) _ . , „ „ 

、怎 1 ； _ P(A 1 )P(B|>1 1 ) + P ( A 2 ) P ( B \ A 2 ) + P(^ 3 )P(S|A 3 ) 1 卜丄，以 . 

在右图给出了一个序贯树形图，可用序贯树形图给出条件概率计算的另一种等价的 
解释.图中第一个深灰的叶子表示恶性肿瘤并出现阴影，其概率为 P ( AxnB ), 且所 
有深灰的叶子表示片子中出现阴影，其概率为 P ( S ). 而由恶性肿瘤造成阴影的条件 
概率 P (^!| S ) 是两个概率相除的结果 


例 1.16 现在回到雷达探测器的例 1.9 和图 1.9 .记 
乂={飞机出现}， 

B = { 雷达报警}. 

例 1.9 中给出的条件为 

P ( A ) = 0.05, P ( B \ A ) = 0.99, P ( B \ A C ) = 0 . 1 . 



1.4 全概率定理和贝叶斯准则 29 


在贝叶斯准则中令也= A 和 A 2 = 得到 _ 

P (飞机出现 | 雷达报警）= P ( A | S ) 

PQ4)PQB|A) 

_ P ㈤ P(S ⑷ +P(A C )P ( 寧 c ) 

0.05 - 0.99 

= 0.05 0.99+ 0.95-0.1 

« 0.342 6. □ 

例 1.17 现在回到例 1.13 的棋类比赛问题.此处戌表示你与 i 类棋手相遇的事 
件.由例中给出的条件知， 

P(A!) = 0.5, P(A 2 ) = 0.25, P(A 3 ) = 0.25. 


记 S 表示你赢得比赛的事件，你胜出的概率为 


P ( B | Ai ) = 0.3, V { B \ A 2 ) = 0.4, P ( B | 為0 = 0.5. 


现在假定你已经得胜，问你的对手为一类棋手的概率 nMB ) 有多大? 
利用贝叶斯准则得， 


P ⑷ S )= 


_ PQ4i)P(B|Ai) _ 

+ P ( A 2 ) P ( B \ A 2 ) + P (^ 3 ) P ( S | A 3 ) 


0.5-0.3 

= 0.5-0.3+ 0.25-0.4+ 0.25-0.5 
= 0.4. 


□ 


例 1.18 (假阳性之迷）设对于某种少见的疾病的检出率为 0.95： 如果一个被检的 
人有某种疾病，其检查结果为阳性的概率为 0.95; 如果该人没有这种疾病，其检查 
结果为阴性的概率是 0.95. 现在假定某一人群中患有这种病的概率为 0.001, 并从 
这个总体中随机地抽取一个人进行检测，检査结果为阳性.现在问这个人患这种病 
的概率有多大？ 

记 A 为这个人有这种疾病， S 为经检验这个人为阳性.利用贝叶斯准则， 


P ( A | S ) = 


P ( A ) P ( B \ A ) 

P ( A ) P ( S | A ) + P ( A C ) P ( B \ A C ) 


_ 0.001-0.95 

= 0.001 - 0.95 + 0.999 • 0.05 
= 0.018 7. 


尽管检验方法非常精确，一个经检测为阳性的人仍然不大可能真正患有这种疾病 
(患有该疾病的概率小于2%).根据《经济学人 》 (The Economist ) 1999年2月20 
日的报道,在一家美国著名的大医院中80%的受访者不知道这类问题的正确答案, 
而大部分人回答，这个经检测为阳性的人患病的概率为 0.95! □ 
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1.5 独立性 


1.4 节中我们引入了条件概率 P(A|S) 的概念.这个条件概率刻画了事件 S 的 
发生给事件4带来的信息.一个有兴趣的特殊情况是事件 S 的发生并没有给事件 
A 带来新的信息，它没有改变事件 A 发生的概率，即 

PCA|B) =P ㈤. 

在上述等式成立的情况下，我们称事件 A 是独立 于事件 S 的.注意，由条件概率 
的定义可知 P(AlB) = P(An B)/P(B), 上式等价于 

P(AnS) = P(A)P(S). 


我们将后者作为事件 A 和事件 S 相互独立的正式定义，其原因是后者包括了 
P(B) = 0 的情况，而当 P ⑻ = 0 的时候， P(A\B) 是没有定义的.在这个关系 
中 A 和 S 具有对称的地位.因此 A 独立于 S 蕴涵着 B 独立于儿这样我们可以 
称 A 和 S 是相互独立的，或 A 和 S 是相互独立的事件 . 

人们容易从直观判定独立性.例如，若它们分别是在两个不同的并且没有相互 
作用的物理过程的控制下发生的事件，我们就可以判定它们相互独立.另一方面， 
事件之间的独立性不能直观地从样本空间中的事件看出来.通常认为，若两个事件 
互不相容,就可以判定它们相互独立，事实上，恰巧相反，若事件 A 和事件 B 互不 
相容，并且 P ㈤ > 0和 P ( B ) > 0成立,则它们永远不会相互独立，因为 AnS = 0， 
从而 P ^4 n B ) = 0 _ P(A)P(B). 例如， A 和氺在 P(A) e (0,1) 的情况下是不独 
立的（除非 P0 ) = 0,或 P (4) = 1)，这是因为 A 发生可以确切地告诉你# 一定 
不会发生 ，乂 的发生与否的确会给事件的发生与否带来信息. 

例 1.19 考虑连续两次转动一个具有 4 边的对称的骰子，其 16 种可能的试验结 
果是等概率的，每个试验结果的概率为 1/16. 

⑷事件 


次={第一次转动后得 i }, 马 = •(第 二次转动后得 j } 
是否相互独立？我们有 

P (^ n Bj ) = P (两次转动的结果是 ( i , j )) = 

16 


A 中的试验结果数 4 
1 总的试验结果数―元’ 

、馬中的试验结果数 4 
1 3 卜 总的试验结果数 _ 元_ 
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由于 P(Ai n Bj ) = P ( Ai ) P (馬)，可知 Ai 与玛是相互独立的.在两次转动骰子的 
试验中，离散的均勻概率律（等概率模型）蕴涵着两次转动的独立性 • 

( b ) 事件 

A = {第一次转动后得1 }， B = •[两 次转动的总和为 5} 

是否相互独立？这个问题的答案不是很明显的.我们有 

P 04 HS ) =P (两次转动的结果为(1，4)) = 士， 

±0 

,、事件 A 中所含的试验结果数 4 

( —^所有可能的结果数^ _元. 

事件 B 由试验结果 （ 1 ， 4) ， (2,3) ， (3, 2) 和 （ 4, 1) 组成，因此 

事件 S 中所含的试验结果数 4 

1 ^所有可能的结果数^ _ 16 - 

这样, P(A DB )= P ( A ) P ( B ), 即4和 S 相互独立. 

㈦ 事件 


A = •[两次转动的最大数为2>，馬=•(两次转动的最小数为 2} 


是否相互独立？直观上看这两个事件是不独立的，因为两次转动的最小数蕴涵着两 
次转动的最大数的信息.例如，如果最小数为2,最大数不可能为 1. 现在用定义证 
明它们不独立.我们有 

P (4 nB ) = P (两次转动的结果为 (2,2)) = ^， 

10 


同时 


A 中的试验结果数 3 

1 卜总的试验结果数 _ 16' 

S 中的试验结果数 5 

() _总的试验结果数~ 16' 

得到 P ( A ) P ( B ) = 15/(16) 2 . P(A n S ) 一 P ( A ) P { B ), 故它们并不独立. □ 

最后，我们要指出，若事件4和事件 S 相互独立，那么 S 发生，不会对 A 的 
发生与否提供任何信息.同样，凭直观想象， S 不发生，也不会对 A 的概率提供任 
何信息.事实上，我们可以证明，若 A 和 S 相互独立则 A 和也相互独立（见本 
章后的习题). 
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1.5.1 条件独立 

前面已经提到在给定某事件的条件下，诸事件的条件概率形成符合要求的概率 
律.因此我们可以讨论在条件概率律下的独立性.特别地，在给定 C 之下，若事件 
A 和事件 S 满足 


P(An B \ C ) = P { A \ C ) P ( B \ C ), 


则称 A 和 S 在给定 C 之下条件独立.为了导出条件独立的另一个特征，利用条件 
概率的定义和乘法规则，得到 

P ( C ) P { B \ C ) P ( A \ BnC ) 

= P ( C ) 

= P ( B \ C ) P { A \ BnC ). 


比较前面两组等式的最右端，只要 P ( S | C ) 一 0,那么 P ( S | C ) 这个因子就可以消掉, 
得到 


p ( A | snC ) = P ( A | C ), 

这是条件独立的另一个等价定义（要求 P ( S | C ) 一 0). 这个等式说明在给定 C 发生 
的条件之下，进一步假定 S 也发生，并不影响事件4的条件概率. 

有意思的是， A 和 B 两个事件相互独立并不包含条件独立，反过来也是如此. 
下面请看两个例子. 

例 1. 2 0 考虑抛掷两枚均匀的硬币.这个试验的 4 种可能结果都是等可能的.令 

丑1 = •(第 一枚硬币正面向上}， 
h 2 = { 第二枚硬币正面向上 
D = { 两枚硬币的试验结果不同 


事件丑 i 和事件丑 2 是相互独立的.但是 

V { H X \ D ) = i P ^ l ^) = ¥{ H x r \ H 2 \ D ) = Q , 

这样， P^in H 2 \ D ) / p (玛 |£>) p ( h 2 | d )， 从而丑 i 和丑 2 并不条件独立. □ 

这个例子可以推广.对于任何概率模型，记4和 B 是相互独立的事件， C 是 
一个满足条件 P ( C ) > 0, P ( A | C ) > o 和 P ( S | C ) > o 的事件,并且 A n s n c 为空 
集.这样，由于 P ( AnB \ C ) = 0和 P ( A \ C ) P ( B \ C ) > 0, 4和 S 不可能条件独立（给 
定 C ). 
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例 1.21 有两枚硬币，一枚蓝的，一枚红的.在抛掷硬币之前，先按1/2的概率随 
机地选定一枚硬币，然后进行连续两次独立地抛掷硬币的试验.硬币是不均勻的. 
蓝的硬币在抛掷的时候以 0.99 的概率正面向上.而红的那一枚硬币在抛掷的时候 
以 0.01 的概率正面向上. 

记 S 为选定蓝色的硬币的事件，历为第 i 次抛掷时出现正面向上.当选定硬 
币以后，由于我们抛掷硬币的时候，两次抛掷的结果不会互相影响 ，拓和 场是相 
互独立的事件.这样 

P(ffin H 2 \ B ) = PiH ^ P ^ B ) = 0.99 - 0.99. 

另一方面，和丑 2 并不独立.直观上，当我们知道第一次抛掷的结果是正面向 
上,我们就想到这是一枚蓝色的硬币，此时可以预料到第二次抛掷硬币的结果也是 
正面向上 .® 数学上，可如下证明.利用全概率定理,我们得到 

P (^1) = P ( S ) P (^| S ) + i - 0.99 + i - 0.01 = i 

由对称性可知 P ( H 2 ) = 1/2. 但是对于丑 i n 丑 2 ,利用全概率定理得到 

P(iii n h 2 ) = P ( B ) P (丑 i n H 2 \ B ) + P ( s c ) P ( i/i n h 2 \ b c ) 

=^ - 0.99 - 0.99 + i - 0.01- 0.01 « 

这样 P ( ff ! n h 2 ) ^ 即丑 i 和丑 2 是相互依赖的，即使在给定 b 的条 

件下是相互独立的. □ 

现在把关于独立性的结论总结一下. 


独立性 

• 两个事件 A 和 S 称为相互独立的，如果它们满足 
P(A n s ) = p ^ p ^). 

若 s 还满足 P ( B ) > 0, 则独立性等价于 

P ( 綱 = P ⑷. 


①因此两次抛掷的结果是不独立的.——译者注 
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•若 A 与 B 相互独立，则 A 与也相互独立. 

• 设事件 C 满足 P ( C ) > 0 ,两个事件 A 和 S 称为在给定 C 的条件下条件 
独立，如果它们满足 

P(An B \ C ) = P ( A \ C ) P ( B \ C ). 

若进一步假定 P(B n C ) > 0,则 A 和 s 在给定 c 的条件下的条件独立 
性与下面的条件是等价的 

P { A \ BDC ) = P ( A \ C ). 

• 独立性并不蕴涵条件独立性，反之亦然. 


1.5.2 —组事件的独立性 

两个事件的相互独立性的概念能够推广到多个事件的相互独立性. 


几个事件的相互独立性的定义 

设也，…，为 n 个事件.若它们满足 

= nP (^)， 对任意 {1 ， 2,… ， n} 的子集 S 成立. 
’ ies 

则称，…，为相互独立的事件. 


关于事件^,^2,^3,独立性条件归结为下列4个 条件: 

P ( A 1 nA 2 ) = P ( A 1 ) P ( A 2 ), 
P ( A 1 nA 3 ) = P ( A 1 ) P ( A 3 ), 
P ( A 2 nA 3 ) = P 04 2 ) P ( A 3 ), 

P (^4 i n A 2 n a 3 ) = 


前面 3 个等式说明任意两个事件是相互独立的，这种性质称为两两独立.但是第4 
个条件也非常重要，它并不是前面3个等式的推论.反过来，第4个条件也不包含 
前3个条件.下面两个例子说明了这些事实. 

例 I . 22 (两两独立并不包含独立）设试验是抛掷两枚均勻的硬币.考虑下列事 
件： 
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H x = •{第一次扔得正面 
H 2 = { 第二次扔得正面}， 

23 = ■[两次扔得的结果不相同}. 


由定义可知丑 i 和丑 2 是相互独立的.现在证明 Fi 和£>也是相互独立的.注意到 


P (率0 = 


n nH,) ] = i^ = \ = nD) ^ 

可知 D 与是相互独立的.£»与丑 2 的相互独立性可以类似地 证明. 另一方面， 


由 

P (^1 ^ H 2 ^ D ) = Q ^\-\.\= P ㈣ p ㈣ p ( d )， 
可知 3 个事件是不独立的. 


□ 


例 1.23 (等式 P ( A X n A 2 n As) = P ( A x ) P ( A 2 ) P ( A 3 ) 不包含独立）设试验是 
抛掷两个均勻的骰子（正六面 体)： 


A = •(第 一次扔得1，2或3}， 

B = { 第二次扔得3, 4或5}， 

C = {两次扔得的点数之和为 9}. 


我们有 

P(AnB) = ^i.i=P(A)P(S), 

P (如 = ⑷ P ( C )， 

P(5nC) = l/i.±= p ^ p ^- 

这样3个事件是不独立的，并且任何一对事件也不相互独立的.但是下面的等式是 
成立的 

P (^ in 5 nc ) = ^ = 1.1.1= P ( A ) P ( B ) P ( C ). □ 


一组事件的独立性的直观背景与两个事件的独立性是一样的.独立性意味 
着下面一个 事实： 设把一组事件任意地分成两个小组，一个小组中的任意个数的 
事件的出现与不出现，都不会带来另一个小组中的事件的任何信息.例如，事件 
是独立的事件组，则下面一类等式都是成立的 

P(Ai U 乂2|乂3门 乂4) = P(Al U A 2 ), 

P ( Ai U A ^\ A c 3 f ) A 4 ) = P ( A!U A c 2 ). 


证明可见本章末的习题. 
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1.5.3 可靠性 

在由多个元件组合成的一个复杂系统中，通常假定各个元件的表现是相互独立 
的.下面的例子说明做了这样的假定以后，其计算和分析将变得十分简单. 

例 1.24 (网络连接）在计算机网络中，4和 B 两个结点通过中间结点 C , D , E,F 
相互连接（见图 1.15 a ). 图上直接连接的两个点 i 和 j 表示 i 和 j 之间有一个元 
件运行着，当这个元件失效时两个点之间就失去连接.我们假定 i 和 j 之间具有给 
定的连接概率 阳① 假定各点之间的连接与否独立于其他各点之间连接与否.问 A 
和 B 之间相互连接的概率有多大？ 



( a ) ( b ) 

图 1.15 ( a ) 例 1.24 的网络.箭头旁边的数字表示相应的结点之间的元件有效的概率 .（ b ) 在 

可靠性问题中由三个元件组成的串联和并联系统的图示 

这是一个典型的系统可靠性的估计问题.系统由元件组合而成，而各元件的失 
效与否是相互独立的.这些系统通常能够分解成若干子系统,而每个子系统又由若 
干元件组成，这些元件可以以串联方式或并联方式相互连接（见图 1.15 b ). 

设系统由元件 I ， 2 ,…， m 组成，令为元件 i 有效（运行）的概率.串联系统 
只有在所有元件均有效的情况才是有效的.即 

P (串联系统有效）= PlP 2 …卩爪. 

在并联系统中只需诸元件中有一个元件有效，系统就有效，即 
P (并联系统有效 ） =1 - P (并联系统失效） 

=1 - (1 - pi)(l - p 2 ) ■ ■ ' (1 - Pm )- 

现在回到图 1.15 a 的网络连通的概率0和 B 之间连通的概率）的计算.我们 
用 X — F 表示“由 X 到 y 是连通的”这一随机事件.我们有 

P(C — B ) = 1 - (1 - P(C — 和五 — S )) (1 - P ( C ^ F 和 F — S )) 

=1 — (1 — PcePeb)(^- ~ PcfPfb) 


①图 1.15 a 中两个结点之间的箭头旁边的数字就是结点之间的连接概率. 


译者注 
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=1 - (1 - 0.8 _ 0.9)(1 — 0.95 - 0.85) 

= 0.946, 

P(A — C 和 (7 — B ) = P(A — C ) P(C -^ B )= 0.9 - 0.946 = 0.851, 

P(A -> D 和 — B ) = P (4 — D ) P(D ^ B )= 0.75 - 0.95 = 0.712. 

最后，我们得到所需的概率 

P(A -> 5) = 1 - (1 - P(A — C 和 C S )) (1 — P ( j 4 —> D^GD —» B )) 

= 1-(1-0.851)(1-0.712) 

= 0.957. □ 

1.5.4 独立试验和二项概率 

现在设试验有一系列独立并且相同的小试验组成，称这种试验为 独立试验序 
列. 当每个阶段的小试验只有两种可能结果的时候，就称为独立 的伯努利试验序列， 
此处的两种可能结果可以是任何结果，例如“下雨”和“不下雨”.但是，在学术讨 
论中，我们通常用抛掷硬币的两个结果“正面” ( H ) 和“反面” ( T ) 作为代表. 

现在考虑连续 n 次独立地抛掷硬币的试验，每次抛掷的结果为正面的概率为 
P ， 其中 p 是在0和1之间 的数. 此处“独立”意味着事件 A 1; A 2 , ••- , A n 是独立 
的，事件 A i = { i 次抛掷的结果为“正面” }• 

我们可以用序贯树形图来直观上刻画独立伯努利试验序列.图 1.16 中显示的 
是 n = 3的情况.由于独立性，不管前面的抛掷结果是什么，每次抛掷得到正面的 
条件概率都是 p . 这样,每个试验结果（长度为3的正面和反面的序列）的概率只与 
序列中的正面出现次数有关.设试验结果中有 fc 个正面， 3- k 个反面，则这个试验 
结果的概率为 沪(1 - pf ~ K 这个公式可以推广到任何 n 次抛掷硬币的试验结果的 
计算. 在长度为 n 的独立伯努利试验序列中，任何试验结果的概率为 p k ( l - P r - k , 
其中 A : 为试验结果中正面出现的次数， fc 的取值可以从0变到 n . 

现在我们要计算概率 

p ( k ) = P ( n 次抛掷中有 fc 次出现正面)， 


这个概率在概率论中处于十分重要的地位.由于任何包含次正面向上的结果的 
概率都是 p k ( 1 — p ) n - k ， 我们得到 

P ㈨= 0_P) n -' 

此处记号 


= n 次抛掷硬币的试验中出现 fc 次正面的试验结果数. 
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数（卩）就是有名的二项系数，称为 n 选 fc 的组合数，概率 p ( fc ) 就是有名的二项概 
率.在 1.6 节将介绍计数法，利用计数法可以得到 

{ t ) = k \( n - k)V h 。， 1 ， …，’ 

此处记号 i ! 表示正整数 i 的阶乘， 


*! = 1 - - 1 ) •*, 

按传统，记0! = 1. 在本章末的习题中给出了这个公式的另一证明.由于二项概率 
p ( k ) 的总和必须为1，这样我们得到二项公式 




■p) n ~ 



HHH 概率=炉 


-p^-TTT 概率 =p(l—p 尸 


图 1.16 连续三次抛掷硬币试验的序贯树形图表示.在树枝上己经标明相应的条件概率.作为 
顺序三次抛掷硬币的结果的概率是在树形图的相应路径上的条件概率的乘积 

例 I . 25 (服务等级）设一个互联网服务器备有 c 个调制解调器以满足 n 个用户 
的 需要. 设在给定时刻，每一个用户相互独立地以概率 p 需要与服务器连接，当连 
接的时候，服务器需要有一个调制解调器以供使用.现在的问题是调制解调器不够 
用的概率有 多大？ 

当同一时刻需要调制解调器的用户个数多于 c 的时候，服务器就不能够满足 
用户的需要.它的概率为 

p(k), 
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其中 

p(k)=(^jp k ^-p) n - k 

是二项概率.例如 n = 200, p = 0.1 和 c = 15,相应的概率为 0.039 9. 

这是一个典型的满足用户需求的设备规模问题.这批用户是一群具有相同需 
求并且独立行动的用户.现在的问题是要选择服务设备的规模,使得满足用户需求 
(指所有需要使用设备的用户都能得到服务）的概率超过给定的门限值（有时候，给 
概率值设立若干门限，称为 服务等级). 口 

1.6 计数法 

在计算概率的时候，通常需要数清楚有关事件中的试验结果数（或基本事件 
数).我们已经遇到两种情况，需要这样的计数法. 

( a ) 当样本空间只有有限个等可能的试验结果，因此这是一个等概率模型. 
事件 A 的概率可由下式给出 


4中元素的数目 
1 卜 0中元素的数目’ 

公式中涉及4和 D 中元素的计数问题. 

( b ) 当我们需要计算事件 A 的概率，且4中的每一个试验结果具有相同的概 
率 pip 已知）时,那么 

P ( A )= P .04 中元素的数目). 

此时，也涉及事件 A 中的元素的计数问题.前面提到的 n 次抛掷硬币的试验中出 
现 fc 次正面的事件的概率（二项概率）的计算就是这样一类的计算问题.这个概率 
的计算过程显示，每个试验结果的概率的计算是比较容易的，但是要数清楚具有 fc 
次正面向上的试验结果的个数，却有一些复杂. 

计数问题原则上很简单，但是真正计算起来却不简单.计数的艺术属于 组合数 
学的一 部分. 本节将介绍一些计数的基本准则，并将之应用到概率模型中经常遇到 
的计算问题. 


1.6.1 计数准则 

这是计数的最基本的方法.计数准则基于分阶段计数的原则，因此可以借助序 
贯树形图进行计数.例如，考虑一个由两个相继阶段组成的试验.第1阶段试验的 
可能结果为 a u a 2 ,--- , a m , 而第2阶段的结果为 h , b 2 , ■■- , b n . 这样两阶段的试验 
结果为所有的有序对（叫 ， = = 这些有序对的个数总和为 

mn . 这种计数方法可以进行推广 r 个阶段试验的情况（也可见图 1.17 的说明). 
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阶段1 阶段2 阶段3 阶段4 


图 1.17 基本的计数准则的序贯树形图说明.通过 r 个阶段进行计数（图中 r = 4). 第一个 
阶段有 ru 个可能的 结果. 前 r _ 1个阶段的每一个可能的结果，在第 r 阶段都对应 
着 n r 个可能结果.总共的叶子数目为 mn 2 ■■■ n r 

例 1.26 (电话号码数）电话号码由7位数字组成，但第一位不能是0或1.一共 
有多少个不同的号码呢？我们可以将之看成序贯地选择数字的过程，但每次只选一 
位.总共有7个阶段，第1个阶段一共有8种选择，从第2阶段开始,每次都从10 
个数字中任选一个.因此电话号码的个数为 

8 - 10 - 10---10 = 8 - 10 6 . □ 
6次 

①国内称为“计数的乘法准则”或“乘法准则”，这个名称更通俗易懂.——译者注 
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例 1.27 (n 个元素的集合的子集的个数） 考虑一个 n 个元素的集合 { Sl ， ，…， 
这个集合有多少个子集（包括这个集合本身和空集呢)？我们可以用序贯的方 
法选择一个子集.我们可以对每一个元素做一个选择，并判断它是否属于这个子集. 
这样一共分成 n 个阶段，每一个阶段有两种选择.这样子集的总数为 

2 . 2_..2 = 2 n . □ 
' -V- • 

n 次 


可以对这个计数准则做一些稍微修改.对于不同的第一阶段的结果后面可以接 
着不同的第二阶段的试验，只要各个第二阶段的可能结果的数目相同. 

下面我们将讨论从 n 个对象中选取 fc 个对象的计数问题.若选取的对象与次 
序有关，则选出来的一组对象称为排列,若选出来的一组对象是形成一个集合，与选 
取的对象的次序无关，则这一组对象称为组合.以后我们还会讨论更一般的分割的 
计数问题.所谓分割就是将 n 个对象分成多个子集. 

1.6.2 ri 选 fc 排列 

首先假定 n 个不同的对象组成一个集合.令 fc 是一个正整数， k ^ n . 现在我们 
希望找出从 n 个对象中顺序地选出 fc 个对象的方法数，或 fc 个不同对象的序列数. 
作为第一阶段，我们可以从 n 个对象中任意选一个.当第一个对象选定以后，在第 
二阶段,我们只可能从剩下的 n _ 1个对象中选择一个.当前两个对象选定以后，在 
第三阶段，只可能从剩下的 n - 2个对象中选择一个,等等.最后，当我们选择第 fc 
个对象的时候，只能从剩下的 n -( fc - l ) 个对象中选择了.利用计数准则，所有可 
能的序列数为 


n(n _ 1) ... (n _ fc + 1) = n ( n —— + — 幻 ... 2 .1 

(n — fc ) …2 • 1 

_ n ! 

= ( n - A :)!' 

特别当 k 二 n 的情况，此时所有可能的序列数为 

n(n — 1) …2 • 1 = n !， 

这时，这些序列称为 n 取 fc 排列， 特别， 当 k = n 的时候,简称为排 列®. (当 fc = n 
的时候， 关于 k 排列数的公式仍然有效，原因是我们已经约定0! = 1, ) 

例 1.28 现在计算由4个不同字母组成的字的个数.这是26选4的排列数.按 
排列公式为 ; 26! 

^^ = |：= 26. 25-24- 23 = 358 800. □ 

①此处的排列、组合和分割在中英文中均有双重意义，一个排列是指 n 个元素的一个顺序，同时又可 
以指排列数 n !， 具体指哪种内容要看行文.——译者注 
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排列计数法可以与计数的乘法准则联合起来解决更复杂的排列问题. 

例 1.29 你有 m 张古典音乐 CD 盘， n 2 张摇滚音乐 CD 盘， n 3 张乡村音乐 CD 
盘.有多少种排列方法将这些 CD 盘排在 CD 架上，使得相同种类的 CD 盘是排在 
一起的？ 

我们将问题分成两步解决.首先选择 CD 盘类型的次序，然后选择每种 CD 盘 
内部的次序.一共有3!种类型次序（例如古典/摇滚/乡村，乡村/古典/摇滚等) ，一 
共有 m ! (或 n 2 !， 或 n 3 !) 种古典（或摇滚,或乡村) CD 的排列.这样对每一种 CD 类 
型的排列，有 m ! n 2 ! n 3 ! 种 CD 盘的排列方式.从而总的排列方法数为 3! m ! n 2 ! n 3 !. 

现在假定，计划将每一类 CD 盘中选出&张（你原有叫张 i 类 CD ) 送给你 
的朋友.当你送出盘以后，你的 CD 架上有多少种排列法？这个问题与没有送出时 
的计算方法是一样的，只是将叫！换成 rnmni - h 的排列数即可.所以可能的排 
列数为 ® 

m ! n 2 ! n 3 ! 

1.6.3 组合 

一共有 n 个人,希望组织一个 fc 个人的委员会.问有多少种不同的委员会？用 
抽象的语言说，给定的 n 个元素的集合中有多少种不同的 fc 个元素的子集？注意, 
形成 fc 子集不同于形成 n 选 A : 排列，因为在选择子集的过程中，选出来的 A : 个元 
素之间是没有次序的.例如4个字母和£>中选2个的排列有12 种： 

AB , AC , AD , BA , BC , BD , CA , CB , CD , DA , DB , DC , 

而这 4 个字母的两个字母的组合有下列 6 种 

AB , AC , AD , BC , BD , CD . 

(因为在组合中元素是没有次序的， AS 和 BA 是无法区别的 .） 

在上面的例子中，组合实际上是由排列归并而成的.例如，从组合的观点看来， 
AS 和是不可区分的，它们都对应于组合这种推导方法可以推广到一般 
的情 况：在 n 对象取 fc 个对象的组合中，每一个组合对应了 fc ! 个不同的排列.这 
样在 n 对象取 A ; 个对象的排列数 n \/( n - k ) l 等于组合数乘以 fc !. 因此,从 n 个元 
素的集合中选 fc 个元素的组合数为 

n ! 

k \{ n - k)V 

现在回到二项系数 （ D 的表 达式. 二项系数定义为 n 次抛掷硬币时，正面向上 
次数为 fc 的可能的试 验结果数.我们注意到， 确定一个 k 次向上的试验结果等价 

①在计算排列方法数的时候，要顾及各种不同的送 CD 盘的方法.——译者注 
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于在所有 n 次抛掷结果（正面向上或反面向上）选出 fc 次（正面向上）来.因此二 
项系数刚好等于从 n 个元素选择 fc 个元素的组合数.这样 

(n\ n\ 

\k) = k\(n-k)V 

例 1.30 為 S , C 和 D 四个字母中选出两个字母的组合数为 

G)=^ =6 . 

这个结果与前面列举的组合数相同. 口 

值得指出的是，有时候利用计数法能够导出一些在代数上很难证明的公式 .一 
个例子是在 1.5 节讨论的二项公式 

作为特殊情况，当 P = 1/2时，公式变成 

上式还可以得到新的解释.由于 （=) 是具有 n 个元素的集合的所有 A ; 个元素的子 
集的个数，将（〗）对所有的 fc 求和得到这个集合的所有子集的个数，而这个数刚好 
等于 2". 

例 1.31 设有一群人，一共有 n 个.现在要组织一个个人爱好俱乐部,倶乐部由一 
个主任和若干成员组成（成员人数可为 0). 问有多少种方式组成一个倶乐部？我们 
用两种不同的计数法计算，从而得到一个代数恒等式. 

首先挑选一个倶乐部主任，一共有 n 种不同的选法.然后从剩下的 rz - 1个人 
员中挑选一般成员.实际上，这 n - 1人中任意一个子集，配上主任,就成为一个俱 
乐部.而不同的子集个数共有2"- 1 个.这样一共有 T 12"- 1 种不同的方式组成一个 
倶乐部. 

另外，我们可以这样考虑此问题.首先选择 fc 个人组成一个 fc 人集体，然后从 
中选择一个主任，组成一个 fc 人倶乐部.这样一共有种方式组成一个 fc 人俱 
乐部. 对所有的 k(k = l,---,n), 将组成 fc 人俱乐部的方式相加，就得到组成倶乐 
部的方式数.由此可得到代数恒等式 
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1 . 6.4 分割 


注意到组合是从 n 个元素的集合中选出的一个元素个数为 A ; 的子集，因此可 
将一个组合看成将集合分成两个子集合的一个分划，其中一个子集的元素个数为 
k , 另一个子集为补集，其元素的个数为 n - k . 现在我们考虑将一个集合分成多于 
两个集合的分割. 

给定一个元素个数为 n 的集合，并设为非负整数，其总和为 n . 
现在考虑将具有 n 个元素的集合分解成 r 个不相交的子集,使得第 i 个子集元素 
个数刚好是叫.问一共有多少种分解的方法. 

现在分阶段每次确定一个子集.一共有 CTj 种方法确定第一个子集.当第一 
个子集确定以后，只剩下 n - m 个元素可以用来确定第二个子集.这样在确定第二 
个子集的时候,一共有 ( n - ni ) 种方法，以此类推.对 r 个阶段的选择过程利用计数 
准则得到总共的选择方法数目为 


(:) ㈡ C 1 — : 3 ，)… C 


上式等于 


n! (n — m)! (n — ni — - n r _i)! 

ni!(n - ni)! n 2 l(n - m — n2)! n r !(n - n\ - n r -i — n r )\ 

经过消去化简，上式等于 ， 

n! 

ni!ri2!... n r l 

这个数称 为多项系数, 并且用下列记号 表示： 



例 1.32 (相同字母异序词）将 TATTOO 这个英文单词的字母颠倒排列可得到多 
少个不同的 单词？ 这里有6个位置供这些字母去填充.每一个字母的重新排列等 
于一个6个位置的分割，分割的一个小组的大小为3,用于放置字母 T ， 另一个小 
组的大小为2,用于放置字母0,第三个小组的大小为1，用于放置字母 A . 这样一 
共有 

6! 1-2-3-4-5-6 

1!2!3! = 11-21-2-3 = 60 

个单词. 

也可以用另一种方法导出这个结果（这种方法也可以用于导出多项系数的公 
式，见本章后习题).我们将 TATTOO 写成 T 1 AT 2 T 3 0 1 0 2 的形式，假装这6个字 
母是不相同的.这样一共有6!种不同的 排列. 然而有3!种 T ! T 2 T 3 的排列和2!种 
0 i 0 2 的排列形成同一个单词，这样当下标去掉以后，一共有6!/(3!2!)个不同的单 
词. □ 
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例 1.33 一个班由4个研究生和12个本科生组成.将这个班随机地分成4个小 
组,每组4人.问每个组刚好包含一个研究生的概率有多大？这个问题就是 1.3 节 
例 1.11 的问题.但是现在我们要利用计数方法解答这个问题. 

首先应该确定样本空间.我们将分小组的问题设想成将16个学生随机地放入 
4个房间，每个房间4个人，这是一个分割问题.由于16个人是随机地分派到各个 
房间里去的，故每个分割的概率是相等的 .® 

按照分割的定义,分割数为 

/ 16 \ 16! 

1^4,4,4,47 = 4!4!4!4!' 

现在考虑每一个房间只分配一个研究生的分割数.我们可以分两个阶段完成 
学生的分派问题. 

( a ) 第一阶段，将4个研究生分派到4个房间中去,每个房间1人.这是一个 
只有4个人的分割问题,分割数为 4!. 

( b ) 第二阶段，将12个本科生分派到4个房间中去，每个房间分派3人.这也 
是一个分割问题，分割数为 


/ 12 \ _ 12 ! 

1,3,3,3,37 = 3!3!3!3!' 

利用乘法准则，每个房间分派1个研究生和3个本科生的方法一共有 
4!12! 

3!3!3!3! 

种.这样,按古典概型的定义,每个小组分派到一个研究生的概率为 
4!12! 

3!3!3!3! 

16! • 

4!4!4!4! 

经过化简，这个数为 

12.8.4 

15-14.13' 

这个结果与例 1.11 的结果相符合. □ 

下面是计数结果的汇总. 


计数法汇总 

• n 个对象的排 列数： n !. 

• n 个对象中取 /c 个对象的排 列数： n!/(n - A :)!. 


①这样，样本空间由全体分割组成，并且概率律是等概率的.一译者注 
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• n 个对象中取 fc 个对象的 组合数 ： （幻= fc ! (:二 )! • 

•将 n 个对象分成 r 个组的分 割数， 其中第 i 个组具有％个 对象: 

( n ) n! 


1.7 小结和讨论 

解决一个概率问题通常分成下列几个 步骤： 

( a ) 描述样本空间，样本空间是一个试验的所有可能的试验结果的集合； 

( b ) (可能不直接地）列出概率律（每个事件的概 率)； 

( c ) 计算各种事件的概率和条件概率. 

概率律必须满足非负性、可加性和归一性公理.对于试验结果的总数有限的重 
要特例，我们只需列出每一个可能试验结果的概率，而任何事件的概率的计算，只 
需将组成这个事件的所有可能的试验结果的概率相加，就得到这个事件的概率. 

给定一个概率律，我们经常需要计算条件概率，这是因为条件概率涉及得到部 
分信息以后的概率计算问题.我们也可以将条件概率看成特殊的概率律，在这个概 
率律之下，只有包含于由条件所确定的事件内的事件才有正的条件概率.条件概率 
可以通过公式 P ( A |5) = P(^l n B )/ P ( B ) 进行计算.然而在应用中，更常见的是利 
用条件概率来计算无条件概率. 

我们已经用例子说明了计算概率的如下三种方法. 

⑷计数法.这种方法适用于古典概型，即试验只有有限个可能的试验结果，而 
试验结果是等可能的.为计算一个事件的概率,只需数清楚这个事件中的基本事件 
个数,再除以基本事件总数，就得到这个事件的概率. 

( b ) 序贯树形图 方法. 当试验具有序贯特征的情况下可以利用序贯树形图方 
法.这种方法的关键是我们必须计算相应树枝事件的条件概率.这些条件概率或者 
是已知的或者是利用各种方法（包括计数法）计算得到的.利用乘法规则将相应路 
径上的事件的条件概率相乘，就可以得到相应事件的概率. 

㈦ 全概率 公式. 利用全概率公式可以计算事件 S 的概率 P ( B ), 关键是要找到 
样本空间的一个分割 = , n , 使得相应的概率 P ( Ai ) 和条件概率 P ( B \ Ai ) 
为已知或比较容易计算，然后利用全概率公式计算 P ( B ). 

最后，我们还讨论了若干问题，这些问题或者扩大了概率论的应用范围，或者 
提髙了利用主要定理进行计算的 能力. 我们引入了贝叶斯公式，这是概率论的一个 
重要应用 领域. 同时，为了加强计算能力，我们讨论了计数方法的一些基本规则，包 
括组合、排列等. 
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习 题 


1.1 节集合 

1. 考虑掷一个具有6个面的骰子.令事件4为掷出偶数.令 S 表示点数大于3的事件.验 
证下面的德摩根 公式： 


(AUB) C = A c nB c , (ADB) C = A C UB C . 

2. 设 A 和 B 是两个集合. 

( a ) 证明 

A c = (A c n B) u (A c n B c ), B c = (An B c ) u (A c n B c ). 

( b ) 证明 

(An B) c = (A c n s) u (A c n s c ) u ( 乂门 B c ). 

( c ) 考虑掷一个均匀的，具有 6 个面的骰子.令事件4为掷出奇数.令 S 表示点数小 
于4的事件.求出 （ b ) 中公式两边的集合并验证集合等式. 

3.* 证明恒等式 


^u(n^ = 1 S n ) = n^ = 1 (Aus n ). 

解若 X 为左边的集合的元素，则有两种可能性 .（ih e A 此时对一切 1, X e 
A U Bn, 从而 a : 属于等式右边的集合； （ ii ) 对一切 n ^ 1, x e B n , 此时对一切 n 彡 1, 
xeAuB n , 这样， z 也属于等式右边的集合. 

反过来，若 a ; 是等式右边的集合的元素，说明对一切 n ^ l , xeAuB n . ^ x S A , 
显然 cc 是等式左边的集合的元素.若 z 矣 A ， 此时，对一切 n ^ l , x 必须是 S „ 的元素， 
这再一次证明 a ; 是等式左边的集合的元素. 

4.* 康托的三角论证方法指出单位区间 [0,1] 是不可数集合，即 [0,1] 中的数不可能排成一 
个数列. 

解每一个[0, 1] 区间中的数，都有十进制表达式，例如1/3 = 0.3333 .... 注意 ，绝大部 
分数具有唯一的表达式，但也有 例外， 例如1/2可以表为 0.5000 …或 0.4999.... 可以 
证明这些数是仅有的例外，即只有结尾是无限个0的数或结尾是无限个9的数才有两种 
表达式. 

现在用反证法.假设所有的[0, 1] 区间中的数，可以排成一列， X 1 ,X2,X3, ,即 [0, 1] 

区间中的每一个数都在这个序列中.考虑0^的十进制表达式 


其中 为集合{0,1，... ，9} 中的一个数.现在构造一个数2/，它的第 n 位小数取成1 
或2,但是它不等于的第 n 位数 <， n = 1, 2, .... 由于 y 的第 r * 位与〜的第位 
数不同，2/与是不同的.这样 y 不可能在 a ： i ，； E 2， a ：3,... 中，与假设矛盾.从而[0, 1] 
区间中的数是不可数的. 
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I. 2 节概率模型 

5. 在一个班上，有60%的学生是天才，70%的学生喜欢巧克力，40%的学生既是天才又喜 
欢巧克力.现在从班上随机地选择一位同学，请问他既不是天才学生又不爱好巧克力的 
概率有多大？ 

6. —个有6个边的骰子是这样设 计的： 在转动骰子的时候，所有偶数边出现的概率比奇数 
边出现的概率大一倍，而对于不同的偶数边出现的概率是相同的，不同的奇数边出现的概 
率也是相同的.现在设将骰子转动一次，为这个试验建立概率律,并求出点数小于4的概 

率. 

7 . 将一个有4个边的骰子持续地转动若干次，直到第一次出现偶数边为止.这个试验的样 
本空间是什么？ 

8. 你参加一个象棋比赛，必须与三个对手下象棋.按规定，只有赢两场比赛,才算你得胜.假 
定，与每个对手比赛的时候，你贏棋的概率是已知的.另外，你成为得胜者的概率与比赛 
的次序有关.证明将三位比赛对手中的最弱者排在第二位的时候，你成为得胜者的概率 
最大，而与其他两位对手的比赛次序无关. 

9. 样本空间 n 的分割是一组互不相容的事件组{汾， .■. , s „}， 满足条件 n = u ? =1 况. 

( a ) 证明对任何事件 总 下式成立 

i=l 

( b ) 利用 （ a ) 的结论，证明对任何事件洗 S 和(7,下式成立 

P ( A ) = P ( AnB ) + P{A nc ) + P ( AnB c nC c ) - P ( AnBnC ). 

10. 证明公式 

p ((4 n B c ) u (，n s )) = P ( A ) + P ( S ) - 2 P ( AnB ), 

这个公式给出义和 S 中间恰有一个事件发生的概率.（与公式 P ( AUS ) = P (^)+ P ( B )- 
P ( AnB ) 相比较，这个公式给出4和 S 中间至少有一个事件发生的概率 

II. * 邦费罗尼不等式. 

( a ) 对于任何两个事件 A 和 S ， 证明 

P{A n B ) ^ P (,4) + P ( S ) - 1. 

( b ) 将上式推广到 n 个事件的情况，证明 

P (^4 i n ^2 n • • • n A „) ^ P (欠 0 + p ( A 2 ) + ••- P ( A n ) _ (n — l ). 

解 由等式 P(A DB ) = P ( A ) + P ( B ) - P(yi n B ) 和不等式 P(A US ) < 1, 立即可得 
( a ). 至于 （ b ), 利用德摩根公式可得到下面的结果 

1 _ P(Ai n a 2 n • • • n ^ n ) = p n 災 2 门…门 A n ) c ) 

=P(^ UA c 2 Ll---uA c n ) 
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《 P ⑷) + P ⑷) + ... + P «) 

= (1 _ p (40) + (1- P (^2)) + … + (1 — P ( A „)) 

= n - P (^)- P (^ 2 ) - P (4„)， 

由这个公式可得到 （ b ). 

12. * 容斥恒等式.将下面的公式推广 

P(A US ) = P (^) + P ( B ) - P { AnB ). 

( a ) 设 A ， S , (7 为三个事件，则下列恒等式成立， 

p (^ iubuc ) = P ( A )+ P ( B )+ P ( C )- P ( yinB )- P ( ylnC , )- P ( SnC , )+ P ( yinsnC ). 

(b) 设 Ai,A 2 , - - - 为 n 个事件.记 说= { i|l i ^ n}, S2 = {( ii ,* 2)|l < ii < 
*2 ^ n }, 一般地，令 5 V „ 为满足条件 1< &<&<••_ < i m < n 的 m 维指标 
(»!,••• , im ) 的集合，则下列恒等式成立， 

P ( r ^ =1 A fc ) = E p (4) - Y . P(^n nA i2 ) 

( ii , n ) es 2 

+ E p « 门 4 门 o —... + (— ir 一 1 p ( nUfc ). 

( H ,<2, i 3)£ S 3 

解⑷利用公式 P(X OF ) = P ( X ) + P ( y ) - P(X n Y ) 和集合等式 （4 us ) nc = 
(A n c ) u (s n C ) 得到 

P (^ U B U C ) = P(A UB ) + P ( C ) - P((A U B ) n C ) 

= P (災 UB ) + P ( C ) - p ((4 n c ) u (B n C )) 

= P (^ iUS ) + P ( C ) - P ( Anc )- P ( snC ) + P (^ nsnC ) 

= P (^) + P { B )- PCA DB ) + P ( C ) - P (^ nc )- P ( B n C ) 

+ p (^4 nsnc ) 

= p ( a ) + P (- B ) + P ( C ) - p ^4 ns ) - p(a nc ) - p(b n c ) 
H - p ^ nsnc ). 

(b) 利用归纳法.其主要推断部分可以模仿 （ a ) 中的推导步骤.另一种证明方法可以参 
考第2章末的习题. 

13. * 概率的连续性. 

( a ) 设 A 1 , A 2 , ■■- 是一个单调递增的事件序列，即对每一个 n，c 1 +1 .令 A = 

^ n = iA n . 证明 P ( A ) = 提 示：将 A 表示成可数无限个不相交的事件 

之和. — 

(b) 设 灰 ，戌，…是一个单调递减的事件序列，即对每一个 n ，：) A n +1 . 令 A = 
n n = l ^ n . 证明 P ( A)=Jiim P (^ n ). 提示 ：将⑷ 的结果应用于事件的补集. 
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( c ) 考虑一个概率模型，其样本空间是实数集合.指出 


P([0, oo))= lim P([0 ， nj ) 和 lim P([n, oo)) = 0. 

n_»oo n—*-oo 

解 （ a) 令历 =A ，对 n 彡 2, 令 n A c n -L 这样定义的事件序列 S „ 是互不 
相容的事件序列，并且 U〖 =1 Sfc = 4„ ， ur=iS fc = A . 利用可加公理得到 

P(A) = VP(B fc )= lim ^>( 执 ）= lim P(U^ =1 B fc ) = lim P(A>). 

^ n—*oo ^ n—»oo n—»oo 

fe=l fc=l 

(b) 令 M 和 <7 = 由于 ,4n +1 C A n , 可知 C Cn+1, 即事件序列 c ™ 是上 
升的序列.进一步 C = A C = (n^ =1 A n ) c = U^ =1 A c n = U^° =1 a. 将 （ a ) 用于事件 
序列得到 

1 - P^4) = P(^ c ) = P(C) = lim P(C„) = lim (1 - P(A n )), 

n—»oo n—»oo 


由此可得 结论： P ( A ) = J ^ P ( Ax ). 

( c ) 令 = [0， n ] 和 A = [0™^), 利用结论 （ a ), 可得第一个等式.至于第二个等式，只 
需令= [ n ， oo ] 和 A = n ^° =1 A „ = 0,再利用结论 （ b )， 就可以得到第二式. 

1.3 节条件概率 

14. 将一个均匀的具有6个面的骰子连续抛掷两次 . 36个可能的结果是等概 率的： 

( a ) 找出抛掷出“一对”的 概率； 

( b ) 已知抛掷得到的点数总和小于或等于4,求抛掷出“一对”的概率； 

( c ) 求出至少一个骰子得6点的 概率； 

( d ) 已知抛掷得到两个骰子的点数不同的条件下，求出至少一个骰子得6点的概率. 

15. 将一枚硬币抛掷两次.爱丽丝声称在已知头一次得到正面朝上的条件下，抛掷得到两次正 
面的可能性比已知两次中至少有一次正面朝上的条件下的可能性大.这个结论对吗？当 
硬币为对称和不对称的条件下结论会不会不同？能不能将爱丽丝的推论方法推广呢？ 

16. 我们一共有三枚硬币，其中一枚的两面都画有正面的图像，另一枚的两面都画有反面的图 
像，而第三枚硬币是正常的硬币，两面的图像刚好是一正一反.现在从中随机地抽取一枚 
硬币进行抛掷，得到正面朝上，现在问这枚硬币的另一面画有反面图像的概率有多大？ 

17. 有一批产品共100件.按规定，从中随机地抽取4件产品进行检査，只要这4件产品中 
有一件不合格，就拒绝这批产品.如果这批产品中含有5件不合格品，这批产品被拒绝的 
概率是多少？ 

18. 令义和 S 是两个 事件. 假定 PCB ) > 0,证明 P(An B \ B ) = P ( A | S ). 

1.4 节全概率定理和贝叶斯准则 

19. 爱丽丝在一个文件柜中寻找她的学期报告.她的文件柜有若千个抽屉.她知道她的学期 
报告在 第：/ 个抽屉的概率为巧(大于 0). 由于抽屉很乱，即使学期报告真的在第 i 个抽 
屉内，爱丽丝在第 i 个抽屉内找到学期报告的概率为呔.现在假定爱丽丝在某个抽屉内 
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找，不妨设在第 i 个抽屉内找，而没有找到.证明在这个事件发生的条件下，她的学期报 
告在第个抽屉内的概率是 


Pi 

1 - Pidi 


若 j 


Pi(l — dj) 
1 — Pidi 


若 j = i . 


20. 弱者利用策略在比赛中 获利. 鲍利思准备与一位对手进行两局的棋牌比赛.他希望找出 
好的策略以提髙他贏的概率.每局棋的结果有三种可 能：贏 ，输，平局.如果在两局以后的 
积分相等，以后就采用突然死亡法.一直打下去，直到一方贏得一局，最后决定胜负.鲍利 
思有两种不同的下棋风格，保守的和进攻的，并且鲍利思在每一局都能自如地决定采用其 
中的一种风格，而与前一局的风格 无关. 当采用保守的风格时，和局的概率为 Pd ( Pd > 0), 
输的概率为 l — p d . 当采用进攻的风格时，他贏的概率为输的概率为 1 - Pw . 鲍利 
思在突然死亡阶段总是采用进攻的风格，但是在第一、二局可以随意采用不同的风格. 

( a ) 找出下列几种策略下，鲍利思得胜的概率 

( i ) 在第一、二局采用进攻风格； 

( ii ) 在第一、二局采用保守 风格； 

( iii ) 只要他的分数领先，就采用保守风格，其他情况采用进攻风格. 

( b ) 若 p w < 1/2, 那么不管采取什么风格，鲍利思均是一个游戏中的弱者.证明当采用 

策略 （ iii ) 的时候，鲍利思可以有好于50%的赢棋机会（依 赖于知 和的值).你 

怎样解释这种现象？ 

21- 两个人轮流从一个坛子中随机地取出一个球，坛子里放有 m 个白球和 n 个黑球.首先从 
坛子里取出白球者为胜.为计算第一个取球者获胜的概率，导出一个递推公式. 

22. —共有 fc 个罐子，每个罐子中有 m 个白球和 n 个黑球.将罐子1中随机地取出一个球 
放到罐子2中，再在罐子 2 中随机地取出一个球放到罐子3中，如此往复，直到最后，从 
罐子 fc 中随机地取出一个球.证明最后取出的球是白球的概率与第一次取出白球的概率 
是一样的，即 m/(n + m ). 

23 - 一共有两个罐子，最初两个罐子中含有相等个数的球.现在进行一次球的交换，即同时从 
各自的罐子中随机地拿出一个球放到对方的罐子中去.经过4次这样的交换以后，两个 
罐子的状态保持不变的概率是多少？所谓状态保持不变即原来在哪个罐子的球还是在哪 
个罐子中. 

24 - 犯人的难题 ■已知三个犯人中有两个犯人将要被释放，但在事情还未公布之前，被释放犯 
人的身份是保密的.其中一个犯人要求看守人告诉他，在他的两个狱友中哪一个将被释 
放.看守拒绝了他的要求，理由如 下:“ 在现有的信息之下，你被释放的概率为2/3.我若 
告诉你这个信息，因为你和另一个犯人之间将确定有一个人被释放，所以你被释放的概率 
就将变成 1/2.” 这个看守所列理由的错误在哪里？ 

25 - 两个信封之谜 • 你收到两个信封，每个信封内有若干钞票，钞票的数目都是整数（以元为 
单位)，但两个信封内的钱数是不相 同的. 两个信封内的钱数可以认为是未知的常数.当 
你随机地打开一个信封以后，这个信封中的钱就是你的了.为了多拿钱.你还可以改变主 
意，决定拿另一个信封中的钱.一个朋友声称有一个策略，可以使拿到钱数较大的信封的 
概率超过 I / 2 .其方法 如下： 你连续地抛掷一枚硬币，直到出现正面出现为止，令 X 为你 
抛掷硬币的次数再加上 I / 2 .如果你头一次打开的信封里的钱数少于 X ，你就换信封，否 
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则不换.你的朋友的方法可行吗？ 

26. 归纳法的悍论.考虑一个命题，但不知道命题的真伪.如果我们看到许多例子与这个命题 
相匹配，那么我们就增加了对这个命题为真的 信心. 这些推论方法称为（从哲学意义上， 
不是从数学上的）归纳推论法.现在考虑一个命题“所有的母牛是白色的”.其等价的命 
题为“凡不是白色的就不是母牛”.当我们观察到几只乌鸦的时候，我们的观察显然与这 
个命题是相适应的.但是这些观察会不会使得命题“所有的母牛是白色的”为真的可能 
性更大一些呢？ 

为分析这种情况，我们考虑一个概率 模型： 

所有的母牛是白色的， 

A c : 50%的母牛是白色的. 

令 P 是事件 A 发生的先验概率 P (^ l ). 我们分别以概率 g 和1 - g 观察一只乌鸦和一头 
母牛.这个观察与 A 是否发生是独立的.假设0 < p < 1,0 < g < 1，并且所有的乌鸦是 
黑色的. 

( a ) 给定事件 S = { 观察到一个黑色的乌鸦}，求 P ( A | S ) 的值； 

( b ) 给定事件 C = ■[观察到一头白色的母牛 } ，求 P(A\C) 的值. 

27. 爱丽丝和鲍勃一共有 2 n + l 枚对称的硬币.鲍勃连续抛掷了 71 + 1枚硬币，而爱丽丝抛 
掷 n 枚硬币.证明鲍勃抛出的正面数比爱丽丝抛出的正面数多的概率为 1/2. 

28. * 关于条件概率的全概率公式.设 Ci ，...， C „ 为 n 个互不相容的事件，并且形成样本空间 

的一个分割.令4和 S 是两个事件，满足 P(B n Ci ) > 0对一切 i 成立.证明下式成立 

P (^| B ) = ^ P(Ci\B)P(A\B n Ci). 

i=l 

解首先，下式成立 n 

P(AnB) = ^P((A nB)n Ci), 

i=l 

再利用乘法规则得到 

P((A n s ) n Ci) = P{B)P{Ci\B)P{A\B n a). 

综合两个等式得到 

p(A ns ) = ^ n a ), 

i=l 

上式两边除以 P(B) 并利用公式 P ( A | B ) = P ( AnS )/ P ( S ), 就可以得到关于条件概率 
的全概率公式. 

29. * 设糸 B 为两个事件，满足 P ( A ) > 0和 P ( S ) > 0. 我们称事件 S 暗示 事件木 如果它们 

满足 P(A\B) > P ( A ); 若它们满足 P(A\B) < P ( yl ) 则称事件 S 并不暗示事件 A . 

( a ) 事件 S 暗示事件 A 的充要条件是事件 A 暗示事件 R 

( b ) 假设 P ( B C ) > 0. 证明 B 暗示 A 的充要条件是不暗示 A . 
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( c ) 假定我们已经知道一个宝物藏匿于两个地点之一，其概率分别为和 1-0 .假定 
已知这个宝物藏匿于第一个地点，在那个地点进行发掘，找到它的概率为 p > 0.现 
在证明，假定我们在第一个地点进行发掘，而没有找到这个宝物，这个事件“暗示” 
宝物在另一个地点. 

解 ⑷利用等式 V { A \ B ) = P ( AnB )/ P ( B ) 可知， B 暗示4的充要条件是 P (^ nB ) > 
P ( A ) P ( S ), 利用对称性可知，这个条件也是4暗示 S 的充要条件. 

( b ) 由于 P ( S ) + P ( B C ) = 1,我们有 

P ( S ) P (4) + P ( B C ) P ( A ) = P { A ) = P ( S ) P ( A | S ) + P ( B C ) P 04| B C ), 

这个等式蕴涵 


P ( B C )( P ^4) — P ( A \ B C )) = P ( B )( P ( A | B ) - P ( A )). 

这样， P ( A | B ) - P ( A ) > 0( B 暗示 A ) 成立的充要条件为 P ( A )~ P ( A | B C ) > 0( B C 
并不暗示 4). 

( c ) 设乂和 S 由下式给出 


A = •[宝物是在第二个地点}， 

S = { 在第一个地点并未发现宝物}. 

利用全概率公式，我们得到 

PCB ) = P (^) P ( S | A C ) + P ⑷ P ( S | A ) = /3(1 -p) + ( l -/3), 


故 


P ( A | S ) 


P(A ns )— 1-/3 1-/3 

p ( s ) = /3( i ~ p ) + ( i -/3 ) = 


>1-0= P ⑷， 


这说明 S 暗示 A . 


1.5 节独立性 


30. 有一天，猎手带着他的两头猎犬跟踪某动物的踪迹.他们来到一个三岔口.猎手知道两条 
猎犬会相互独立地以概率 p 找到正确的方向.因此他让两条猎犬选择它们的方向.如果 
两头猎犬选择同一方向，他就沿着这个方向走.若两头猎犬选择不同的方向，他就随机地 
选择一个方向走.这个策略是否比只让一条猎犬选择方向优越？ 

31. 在躁声通道中的通信. 一个二进信号 （0 或 1) 在躁声通道内传输.假设通道以概率 p 传 
送信号0,以概率1 - p 传送信号 1. 错误传输的概率分别为 eo 和 ei (见图 1.18). 在传输 
中，不同信号的误差是相互独立的. 

( a ) 问能够正确地传送一个随机地选择的第 fc 个信号的概率有多大？ 

( b ) 假定传送的信号串为1011，这个信号串能够被正确地传输的概率有多大？ 

( c ) 为了提髙传输的可靠性，每个信号重复传输3次，译码规则采用多数决定制.换言 
之，在传送信号 0(1) 的时候，实际上传送的是 000(111). 在译码的时候，采用少数 
服从多数的原则，例如收到的信号为010,则译成信号0,若收到的信号为110,则译 
成信号 1. 作了这样的编码和译码的规定以后，信号0被正确传输的概率有多大？ 
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( d ) 在 （ C ) 中， eo 为何值才能使信号0被正确传输的概率增大？ 

( e ) 假设编码和译码的规则采用 （ c ) 中的规定.当接收端得到101的时候，对方发信号 
0的概率有多大？ 



图 1.18 二进通信通道中的传输误差概率 

32. 国王的兄弟姐妹.国王只有一个兄弟或姐妹，那么国王有一个兄弟的概率有多大？此处假 
定国王的母亲生男或生女的概率为1/2,而且各次生育是相互独立的.注意回答此问题的 
时候，你必须说清楚附加的假设. 

33. 利用有偏的硬币作出无偏的决策.爱丽丝和鲍勃想利用一枚均匀的硬币来决定他们去看 
歌剧还是看电影.不幸的是，他们只有一枚有偏的硬币（而且他们并不知道偏的程度).怎 
样利用一枚有偏的硬币作出无偏的决策，即以1/2的概率看电影，1/2的概率看歌剧呢？ 

34. 一个电子系统由许多相同的元件构成.每个元件有效的概率为 p , 并且各元件之间是否有 
效是相互独立的.这些元件由三个子系统构成（见图 1.19). 这个系统称为有效的，如果 
在图中由 Z 到 S 有一条通路，且通路上每一个元件是有效的.这与图中的三个子系统同 
时有效是等价的.三个子系统同时有效的概率有多大?® 



a 


图 1.19 一个由许多相同元件构成的系统，是三个子系统1，2, 3串联而成.这个系统称 
为有效的，如果存在由 A 到 B 的一条通路，且通路上的每一个元件都是有效的 

35. tx 选 fc 的系统的可靠性.一个系统由 n 个相同元件组成，其中每一个元件有效的概率为 
P, 并且其他元件有效与否是相互独立的.这个系统称为 n 选 k 系统， 如果这 n 个元件中 
至少有 fc 个元件有效，那么这个系统才有效.这个 rt 选 fc 系统有效的概率有多大？ 

36. 一个电力供应系统从 n 个电厂得到电力供应城市用电.由于种种原因，电厂 i 以概率 
中断供电，而且各电厂之间是相互独立的. 

( a ) 假定每个电厂在供电的时候能够单独供应全市的用电.问这个城市处于全市停电的 
概率有多大？ 

( b ) 假定有两个以上电厂供电的时候，才能避免全市停电.问全市停电的概率有多大？ 


①这个概率也是整个系统有效的概率.——译者注 
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37. 有一个手机服务系统，它有 m 个电话用户（有时候需要电话连接）和 n 2 个数据用户（有 
时候需要数据连接).我们估计在给定的时刻，每个电话用户需要系统服务的概率为 Pl ， 
每个数据用户需要系统服务的概率为 p 2 . 假定各用户的需求是相互独立的.已知一个电 
话用户的数据传输率为 n 比特/秒，一个数据用户的数据传输率为 r > 2 比特/秒.而手机 
服务系统的容量为 c 比特/秒.用户的需求超过系统容量的概率是多少？ 

38. 点数问题 ® 泰里思和温迪在玩18个洞的高尔夫球，其奖金为10元钱.他们各自贏得一 
个洞的概率分别为 p (泰里思）和1 - p (温迪)，并且各个洞的输赢是相互独立的.打完10 
个洞的时候，他们的比分为4:6,温迪占上风.此时泰里思接到一个紧急电话，必须回单位 
工作.他们决定按照他们打完比赛时候贏得比赛的概率分割奖金.假定 p T (p w ) 代表在 
目前10个洞的比分4 : 6的条件下，完成18个洞的比赛后泰里思（温迪）领先的概率， 
则泰里思应得 10p T /(pT +pw) 7 C , 而温迪应得 10pw/(pT + pw ) %■泰里思应该分得 
多少钱？ 


注这是著名的点数问题的一个例子.这个问题在概率论发展历史上起着很重要的 
作用.这是加瓦拉■德.梅尔 (Chevalier de Mere ) ^ 17世纪向帕斯卡 ( Pascal ) 提出的 
赌博中断情况下赌本的分割问题.对此问题，帕斯卡提出这样的 想法： 赌本分割问题应当 
按中断的条件下双方各自贏得赌博的条件概率进行分配.帕斯卡在某些特殊的情况下解 
决了这个问题，并且通过与费马的通信激发了更多的想法和与概率有关的研究课题. 

313 39. 有一个班的学生的出勤率很低，这使教授很苦恼.她决定若 n 个学生中出勤人数少于 it 

| 个时就不上课.现在假定各个学生独立地决定自己是否出勤，在好天气的日子里，每个学 

生出勤的概率为 p 3 , 在坏天气的日子里，每个学生出勤的概率为 Pb . 现在假定某一天是 
坏天气的概率为己知，计算这位教授在这一天能够讲课的概率. 

40. 有一枚不均勻的硬币，在抛掷的时候，正面出现的概率为 p, 反面出现的概率为 1-p. 令 
如为 n 次独立抛掷后得到偶数次正面向上的概率.导出一个联系和的递推公 
式，并利用递推公式导出扣的公式 

9n = (l + ( l -2 pD /2. 

41- 设在一个轮子上，具有连续刻度，不妨设刻度的范围为 （0,1). 每次转动这个轮子，得到一 
个数.现在设有无穷多个人参加这个游戏，第 i 个人转动以后，得到一个数.只有他得到 
的数比他前面诸人所得到的数都小时，他才不被淘汰.令 iV 为第一个人被淘汰的时刻. 
对任意 n , 计算 P(N = n ). 

42.* 赌徒破产问题.一个赌徒进行一系列相互独立的押注活动.每次押注，他以概率 p 贏1元 
钱，以概率1 - p 输1元钱.开始押注时他有 fc 元钱，当他输光钱的时候，或者他的累计 
钱数为 n 元的时候，他就停止 押注. 问他以累计钱数为 n 元而停止押注的概率有多大？ 
解用 A 表示以累计钱数为 n 元而停止押注的事件，用 F 表示第一次押注而贏得1元 
钱的事件.用 Wfc 表示他开始的时候具有 fc 元钱的条件下事件4发生的概率.利用全概 
率公式 

叫= P ( A | F ) P ( F ) + P ( A \ F C ) P ( F C ) = pP (4| F ) + qP ( A \ F c ), 0 < k < n , 


①国内称为赌本分割问题.——译者注 
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其中 g = 1 - P . 利用过去押注结果和以后的押注是相互独立的，第一次押注贏得1元钱, 
故 P ( A | F ) = w k +i , 类似可得 P (乂 |_ F C ) = w k -i - 这样我们得到 Wfc = pwk+i + qwk-i- 
这个结果可以写成 


Wfc+1 -w k = r{wk - W k -i), 0 <k <n, 

其中 r = g / p . 利用这个递推公式和边界条件 wo =Omw n = l 可以解得 w k+1 
Wk+1 = w k + r k w\. 

从而得到 

Wk+i = Wk + r k wi = Wk-i + r fc _1 ' U)i + r k w\ = wi + rwi + • • • 4 - r k wi， 


上面的和号可以分成 r = l(p = g ) 和 r # l(p # g ) 两种情况计算出来，得到 


由于= 1,利用上式可以得到 TOl , 



若 

fcW!, 

若 p = 


若 p^<h 


若 p = a 

(l-r k 

1 l - r n， 

若 

k 

若 p = q. 


从而 


43.* 令4和 S 为相互独立的事件.利用事件独立性的定义证明下面的 结论： 

( a ) 事件4和事件相互 独立； 

( b ) 事件和事件相互独立. 

解 （ a ) 事件 A 可以表成两个互不相容的事件 A n 和 A n B 的并.利用概率的可加 
性公理和事件4和事件 B 的相互独立性，得到 


P ( 力） = P (义 n B) + P(A n B c ) = P{A)P(B) + P{AD B c ). 

由此可知 

P(^nfi c ) = P(A)(1 — P(S)) = P(A)P(S C ). 

即 4 和丑 c 相互独立. 

( b ) 由 yl 和 S 的相互独立性，利用⑷推得4和 S c 的相互独立性.再将结论⑷应 
用于妒和 A ， 得到和#的相互独立性. 

44.* 令八丑， C 为相互独立的事件， P(C) > 0 .证明 A 和 B 在给定 (7 的条件之下是相互独 
立的. 
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解我们有 


P (^) P ( B ) P ( C ) 

_ p ( c ) 

= P(A)P(B) 

= P ( A \ C ) P ( B \ C ), 


由此可知4和 S 在给定 C 的条件之下是相互独立的.在一系列的等式中，第一个等式 
是由条件概率之定义所得，第二个等式是由事件 A , B , C 的独立性，第四个等式是分别利 
用了 4与 C 的独立性和 B 与 C 的独立性. 

45 .*令 A 4 为相互独立的事件， P ( A 3 n A 4 ) > 0 . 证明 


P (^4 i U A 2 \ A 3 nAi ) = P(^iU A 2 ). 


解我们有 


P (^ i | A 3 n ^ 4 ) = 


P (,4 i n yi 3 n a 4 ) 
P ( A 3 nA 4 ) 


p ( 山 ) p ( 义 3 )p ⑹ 

P(,43)P(^4) 


= p (^ i )- 


类似地可以得到 P ( A 2 | A 3 nA 4 ) = P (^ 2 ) m P { A 1 nA 2 \ A 3 nA i ) = p ( A 1 nA 2 ), 最后得 
到， 


P(Ai u A 2 \ A 3 nA 4) = p (山 n a 4 ) + P ( A 2 |^ 3 nA 4 ) - P(Ain A 2 \ A 3 nA 4 ) 
= P ( A 1 )+ P ( A 2 )- P ( A 1 nA 2 ) 

= P ( A 1 UA 2 ). 


46.* 拉普拉斯继承 准则. 设有 m + 1 个盒子，第 fc 个盒子内放有 fc 个红球和 m - k 个白球, 
其中 fc 由0变到 m . 现在随机地取一个盒子（每个盒子等概率被取到)，独立地、有放回 
地从这个盒子内抽取一个球， 一 共抽取 n 次.假定这 n 次抽取的球都是红球.问从这个 
盒子内再抽取一个球，这个球为红球的概率有多大？当 m 很大的时候，这个概率会怎样 
变化？ 


解记五为第 n + 1次抽得红球的事件 ，瓜 表示前 n 次都抽得红球的事件.直观上看， 
连续抽出红球说明被抽取盒子里含有很多红球，因此 PCBli ^) 比较靠近 1. 事实上，拉 
普拉斯利用此例去计算给定5000年中每天日出的条件下明天日出的概率.（我们不清楚 


拉普拉斯多么严肃地对待这个计算问题，但是这已成为概率论发展过程中的一个传说 .) 


我们有 

再利用全概率公式，得到 


P (£| i ? n ) = 


P { Er \ Rn ) 

P ( Rn ) 


P ( Rn ) = J 2 ? ( 选中了第 A ： 个盒子 } (去) "= 

PCB n 瓜 )= P(i?„ +1 ) = 士 I ；。 ( 去 )+ . 





58 第 1 章样本空间与概率 


对于较大的 m ， 可将和数看成积分的近 似值： 

P(i?n) = ^Tl£(i) ^ (m+\)m-I 0 xUdX = (m+\)m- ' ^TT ^ ^Tl' 


相似地， 
故 


P { EnR n ) = P { R n+1 )^^, 

P ( 率 „) a 辑 . 


当 m 和 n 很大的时候,再抽得一个红球是几乎确定的. 

47.* 二项系数公式和帕斯卡三角形. 


( a ) 在抛掷 n 枚硬币的试验中，将出现 fc 次正面向上的结果数记作利用 （3 的这 
个定义导出帕斯卡三角形中所具有的递推关系（见图 1.20); 

( b ) 利用 （ a ) 中推导出来的递推关系和归纳法，证明下面的公式 


/ n \ _ n ! 

\kj = k\(n-k)\' 


解 （ a ) 可以有两种方法产生含有 fc 次正面向上的序列 (0 < A : < n ). 

(1) 前 n _ 1次抛掷硬币的试验中出现 fc 次正面向上，第 n 次抛掷的时候出现反面向 
上.这种序列一共有个. 

(2) 前 n _ 1次抛掷硬币的试验中出现 fc - 1次正面向上，第 n 次抛掷的时候出现正面 
向上.这种序列一共有个. 

这样， 

M = f ( rJ ) + ( V ). 当 fc = l ，2，...’ n — 1， 

\V 当 fc = 0, n . 

这个公式总结了帕斯卡三角形中提示的递推算法.（见图 1.20) 

( b ) 现在利用 （ a ) 中的公式以及归纳法导出下面的公式 



对于 n = 1，利用约定0! = 1，我们得到 （9 = = 1,即对于 n = 1公式是成立 

的.现在假定公式对于 n _ 1以前的一切正整数都成立.转而讨论 n 的情况.对于 
k = 1 , … ，n — 1,由下式 



(打 — I )! . ( n -1)! 

( k - l)!(n — 1 - A : + 1)! 十 fd(n - 1 — fc )! 
k n ! n ~ k n \ 

n k\(n — A :)! n k\{n — fc )! 
n ! 

/ c!(n — A ;)! 
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看出，公式是成立的.而对于 k = 0, n 的情况，公式也显然成立.这样我们用归纳法 
证明了公式对一切 n 是成立的. 

(S) 1 

o (；) … 

(9 (D (D 121 

(D a) a) (D 1331 

(:)«»(:)(:) ! 


图 1.20 利用帕斯卡三角序贯地计算二项系数的方法.左边的三角阵列上的数就是在右 
边阵列上的相应的数.而右边的三角阵列上的数，除了每一排的两端的数都是 
1以外，其余位置是的数都是上一排的两个相邻数的和 

48.* Borel-Cantelli 引理.考虑一个无穷试验序列.假定第 i 次试验成功的概率为 Pi . 记 iV 
为试验序列中没有一次成功的事件，并记/为试验序列中具有无限多次成功的事件. 

(a) 假定试验是相互独立的，并且 J：ZiPi = ^- 证明 P(W) = 0 和 P(/) = 1. 

(b) 假定 ET=iPi <°°- 证明 PW = 0. 

M (a) 由事# iV 发生可知前 n 次试验中没有一次成功，因此 

p ( AT )< n ( i - Pi )- 

i=l 

两边取对数,得到 

logP(AT) < ^log(l - Pi) < 公 (-Pi). 

i=l i=l 

上式中令 n — oo , 我们得到 logP(iV) = - 00 ,或 P ( N ) = 0. 

记表示这个无穷次试验中只有有限次成功并且最后一次成功是在 n 次试 
验.由于我们已经证明了 P(iV) = 0. 不难验证 P(L„) = 0 . 又由于事件尸是不相 
容的事件序列 L„(n 》 1) 和 iV 的并.我们得到 

PCT) = P(A0 + f>(k) = 0 ， 

n=l 

和 P(/) = l. 

(b) 令汉 表示第 i 次试验成功的事件.对某个固定的 n 和每一个 i > n , 定义 Ft 表示 
在时刻 n 以后在 i 时刻第一次成功的事件，显然 Fi C Si . 最后令表示在时刻 
n 以后至少有一次成功的事件.显然事件是不相容的事件序列{只 ： i > n } 之 
并•这样 

PUK P(^n) =p( 0 ^ j = E p (^)^ E P(Si) = f ； V，- 

\i=n+l / i=u+l i=n+l i=n-\-\ 
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由于 ESn+l Pi < 00 ,令 n — 00 ,上式右边趋于0,这说明 P (7) = 0. 

1.6 节计数法 

49•德.梅尔之谜.独立地抛掷一个6面体散子，共三次.问下面的事件中哪个事件可能性大 
一些，和数为11还是和数为12?(这个问题是17世纪法国贵族德.梅尔向他的朋友帕 
斯卡提出的 .） 

50. 生日问题.一共有 n 个人参加一个聚会.假定每个人的生日是相互独立地分布的，并且 
均匀地分布在一年中的某一天,并且排除了 2月29日这一特殊的日子（假定没有人在这 
一天生日).问没有任何两人在同一天生日的概率有多大？ 

51. 有一个坛子中含有 m 个红球和 n 个白球. 

( a ) 我们随机地从中抽走两个球.写出样本空间并计算抽出两个不同颜色的球的概率. 
计算的时候利用两种不同的 方法： 一种方法是利用离散均匀分布率的计数方法，另 
一种方法是利用序贯的基于乘积规则的方法. 

( b ) 我们转动一个具有3条边的骰子，每条边上分别标明1，2, 3. 如果出现 fc , 则从坛 
子中取出 A : 个球，放在一边.写出样本空间并利用全概率公式计算取出的球全是红 
色的概率. 

52. 经过充分洗牌的一副52张的扑克牌中，从上到下地一张一张地翻牌，求出第13张牌是 
第一次遇到的老 K 的概率. 

53. 一共有 9 0个学生,其中包括乔 和简. 现在将他们随机地分成3个班（每个班30人).求 
乔和简被分在同一个班内的概率. 

54 . 有20辆小汽车停放在一个停车场.这20辆车中有10辆是美国制造，另外10辆是其他 
国 制造. 停车场是一字排开的共有 2 0个车位.在某一天内这些车辆的停放是完全随机的. 

( a ) 一共有多少种不同的车辆停放方法？ 

( b ) 这些车互相错位地停放的概率有多大（既没有两辆美国车相邻，也没有两辆外国车 
相邻)？ 

55. 在一个8 X 8的象棋盘中放上8个车（国际象棋的棋子是放在方格子内，不是放在交叉 
线上的!) . 假定所有放法都是等可能的.求出这些车是安全的概率（在同一行上不能有两 
个车，在同一列上也不能有两个车 

56. 某个系一共开设8门低水平课程心，^,…，心和10门髙水平课程历 ，历 ，…，丑 10 . 
一个有效的课程表由4门低水平课程和3门髙水平课程 组成. 

( a ) 一共可以排出多少种不同的课程表？ 

( b ) 假定课程讯，… ，丑 5 必须以心为先修课程， H 6 , -, H 10 必须以 L 2 和 i 3 为先 
修课程.问在这样的条件下可以排出多少种不同的课程表？ 

57. 利用26个字母能够写出多少6个单词的句子，其中每个字母恰好出现一次？所谓一个 
单词就是指一个非空的字母 序列. 当然这些单词和句子可以是毫无意义的. 

58. 从一副充分洗牌的扑克牌中取出上面的7张牌.求出下列事件的 概率： 

( a ) 7张牌中恰好含有3张 A ; 

( b ) 7张牌中恰好含有2张 K ; 

( c ) 7张牌中恰好含有3张 A , 或者恰好含有2张 K , 或者恰好含有3张 A 和2张 K . 
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59. 停车场停有100辆车，其中 fc 辆是有问题的，按柠檬法案应退回厂家的.现在从中随机 
地选出 m 辆进行试车，问其中恰有 n 辆问题车的概率有多大？ 

60. 将一副52张充分洗牌的扑克牌分发给4个玩家.求每个玩家得到一张 A 的概率. 

61. * 超几何概率.一个坛子里边放有 n 个球，其中 m 个是红球和 n - m 个蓝色球.现在从 

坛子中随机地、无放回地抽取个球（无放回的意思在下一次抽取球的时候已经抽出的 
球不再放回坛子).问抽出的个球中恰含 i 个红球的概率有多大？ 

解样本空间由 （=) 种从坛子中选择 fc 个球的方法组成.与我们感兴趣的事件有关的 
选择方法数可以这样 计算； 在 m 个红球中选 i 个球有 （ T ) 种选法，从 n - m 个蓝色球 
中选个球有 ( V _?) 种选法.这样一共有 ( T )( V - T ) 种选法.由于各种选法都是等 
可能的，相关的概率为 



其中 i > 0满足条件 i 在< A :, 且 fc — i < n - m . 对于其他的 i 相应的概率为 0. 

62.* 存在不可区分的对象的排 列数. 在对 n 个对象进行排列的时候，若遇到某些对象之间不 
可区分,此时会造成不同的排列之间不可区分.因此这种具有不可区分对象的排列数会 
小于 n !. 例如三个不同的字母 A , B ， C 共有6种不同的排列 

ABC , ACB , BAC , BCA , CAB , CBA , 


但是字母 A , D 和 D 只有3种不同的排列 


ADD , DAD , DDA . 

( a ) 假定 n 个对象中有 fc 个是不可区分的.证明可区分的对象的序列一共有 n !/ ifc ! 个. 

( b ) 现在假定一共有 r 种不可区分的对象类型，而第 i 种类型内，一共有个不可区分 
的对象.证明可区分的对象排列数为 

n ! 

k x \ k 2 \-- k r V 

解⑷不妨将 n 个对象中 fc 个不可区分的对象 D 记为 Di ，…， Di 若顾及它们的下标， 
这 k 个原本不可区分的对象就是可区 分了. 将这些对象进行排列，一共有 n ! 个不 
同的排列.若把这些原本不可区分的对象的下标去掉，则这些排列中每一个排列都 
有一些排列与这个排列不可区分.这些不可区分的排列形成一个类，这个类中一共 
有 fc ! 个排列.这样， n ! 个排列可以分成 n \/ k \ 个类，每个类内的排列都是不可区分 
的. 这样,可区分的对象序列数就是 n \/ k \. 例如 A , D ，£) 三个对象的排列有3! = 6 
个 

ADD , ADD , DAD , DDA , DAD , DDA , 

这 6 个排列种有些排列是不可区分的.可以将它们分成 n \/ k \ = 3!/2! = 3个类 
{ ADD , ADD }, { DAD , DDA }, { DAD , DDA }, 
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而每个类内含有 fc ! = 2! = 2个不可区分的排列. 

( b ) 一种办法是将 （ a ) 中的方法进行推广.对每一个类别 i ， 有&个不可区分的对象， 
单就这个不可区分的对象而言，就有 A :! 种不可区分的排列.由于一共有 r 类不可区 
分的对象，这样每一个排列，都会属于一个具有 fei ! fc 2 ! ■■■ K \ 个排列的大类，在这个 
大类内的所有排列都是不可区分的.这样可以区分的对象序列的个数就是 
n ! 

kM-'-KV 

另一种考虑的方法如 下：在 n 个位置中选定幻个位置给第一类不可区分的对 
象占有，剩下的 n - fci 个位置中再选定个位置给第二类不可区分的对象占有， 
依次类推，对于每一类不可区分的对象都分派了位置.这样每一种位置的分配位置 
的方法对应于一种可区分的对象序列.这样的分配位置的方法数等于将 n 个对象 
分成 r 个组的方法数，每一个组的大小分别是 k lr --, k T , 而这种分组方法的数目 
就是多项式系数. 



第 2 章离散随机变量 

2.1 基本概念 


在许多概率模型中试验结果是数值化的，例如许多仪器的仪表板的读数以及股 
价等.也有其他一些例子中的试验结果不是数值化的，但是这些试验结果与某些数 
值相联系.例如，从某个群体中选择学生，我们希望了解每位学生的平均学分.当我 
们讨论这些数字的时候,通常给这些数字确定概率.我们可以通过随 机变量 实现这 
个任务，这正是本章重点介绍的对象. 

现在设在某个试验中，所有可能的试验结果构成一个样本空间.对于样本空间 
中的每一个可能的试验结果，关联着一个特定的数.这种试验结果与数的对应关系 
形成一个随机变量（见图 2.1). 我们将试验结果所对应的数称为随机变量的 取值. 
从数学上讲， 随机变量是试验结果的一个实值函数. 




样本 空间： 

两次转动的所有可能结果 

(1>) 

图 2.1 ( a ) 随机变量的图像化表示.这是一个试验结果的函数，对每一个试验结果确定一个 
数值； （ b ) 随机变量的一个例子.将一个具有4条边的骰子连续转动两次，其相应的 
随机变量是两次转动所得到的最大数.若试验结果是 (4,2), 则随机变量的值为4 
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现在举几个随机变量的例子. 

( a ) 连续抛掷一枚硬币共5次，在这个试验中正面出现的次数是一个随机变量. 
然而作为试验结果的长度为5的正面和反面的序列却不能作为随机变量，因为它 
对于一个试验结果没有给出一个明显的数值. 

( b ) 在两次抛掷一个骰子的试验中，下面的例子是随机 变量： 

( i ) 两次抛掷骰子所得到的点数之和； 

( ii ) 两次抛掷一个骰子所得到6点的 次数； 

( iii ) 第二次抛掷所得到的点数的5次方. 


( c ) 在传输信号的试验中，传输信号所需的时间、接收到的信号中发生错误的 
次数、传输信号过程中的时间延迟等都是随机变量. 


我们列出若干关于随机变量的基本概念，这些概念将在本章中详细介绍. 


与随机变量相关的主要概念 

在一个试验的概率模型 之下： 

• 随机变 量是试验结果的实值函数. 

• 随机变量的函 数定义了另一个随机变量. 

• 对于一个随机变量，我们可以定义一些平均量，例如 均值和方差. 
• 可以在某事件或某随机变量的条件之下定义一个随机变量. 

• 存在一个随机变量与某事件或某随机变量相互 独立的 概念. 


若一个随机变量的值域（随机变量的取值范围）为一个有限集合或最多为可数 
无限集合，则称这个随机变量为离散的.例如上 面⑷和 （ b ) 中提到的随机变量，由 
于它只能取有限多个值,所以是离散的随机变量. 

若一个随机变量可以取到不可数无限多个数，则这个随机变量就不是一个离散 
的随机 变量. 例如从区间 [-1,1] 上随机地取一个点 a , 随机变量 a 2 就不是离散的 
随机变量.另一方面随机变量 

{ 1，若 a > 0， 

0,若 a = 0， 

-1，若 a < 0. 

是一个离散的随机变量. 

本章只讨论离散随机 变量. 尽管有时候省略了形容词“离散”，但我们讨论的 
还是离散随机变量的性质. 
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与离散随机变量相关的概念 

在一个试验的概率模型 之下： 

• 离散随机变量是 试验结果的一个实值函数，但是它的取值范围只能是有限 
多个值或可数无限多个值. 

• 一个离散随机变量有一个分布列，它对于随机变量的每一个取值，给出一 
个概率. 

• 离散随机变量的函 数也是一个离散随机变量，它的分布列可以从原随机变 
量的分布列得到. 


下面的几节将讨论上面所提到的概念及其相关的方法理论.此外我们还将提供 
重要的离散随机变量的例子.第3章将讨论一般的随机变量（不一定为离散随机变 
量). 

尽管本章中看起来引入了很多新的概念，实际上并非如此.我们只是将第一章 
中的概念（概率、条件和独立性等）简单地应用到了随机变量上去，仅仅引进了一 
些新的记号.本章中真正新的概念是均值与方差. 

2.2 分布列 

离散随机变量的取值概率是随机变量的最重要的特征.我们用 分布列 表示这 
种特征，并且用 PX 表示随机变量 X 的分布列.设 Z 是随机变量 X 的取值，则 X 
取 值为工 的概率定义为事件 {X = : r } 的概率，即所有与: c 对应的试验结果所组成 
的事件的概率，用 p x {x) 表示之，即 

p x (x)=P({X = a； })- 

例如，在将一枚均勻的硬币独立地抛掷两次的试验中，令 X 为正面向上的次数.则 
X 的分布列由下式给出 

{ 1/4，若 a ; = 0 或 a ; = 2， 

1/2，若 $ = 1， 

0,其他. 

今后在不引起混淆的情况下，我们将省去表示事件或集合的花括号.例如用 
P(X = x ) 表示事件 {X = 4的概率，尽管记号 P({X = x }) 比较确切一些.同时 
我们也会遵守下面的 传统： 我们用大写字母表示随机变量，用小写字母表示实数， 
例如随机变量的取值等. 

对于分布列，我们有 


Y^Px(x) = 1 , 
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其中求和是对随机变量 X 的一切可能的取值而求的.上式之所以成立是由于概率 
的可加性和归一性公理.对于不同的 A 事件 {X = 是互不相容的，并且对所有 
的％事件系列 {X =封形成了样本空间的一个分割.利用类似的原理可以证明， 
对于任意一个 X 的可能值的 集合& 下式 成立： 

XES 

例如,在将一枚均勻的硬币独立地抛掷两次的试验中，至少一次正面向上的概率为 

V{X>Q) = j2Px{x) = \ + \ = \. 

X=1 

分布列的计算，在概念上是很简单的，图 2.2 给出了很直观的解释. 



事件 { X = x } 

( a ) 



两次转 动#? 可能结果 ( b ) 


图 2.2 ( a ) 随机变量 X 的分布列计算方法的图像化 表示. 对每一个 X 的可能值 cc ， 找出 
使 X = a ; 的所有试验结果，将它们的概率相加得到 px ( x ). ( b ) 设所涉及的试验是 
转动一个具有4边的均勻骰子，独立地转动两次.所涉及的随机变量为 X =两次转 
动所得到的最大点数 . X 的可能值为1,2, 3, 4. 对于给定的 I 的值，为计算 p x (x) 
的值，将 X 取值为 z 的所有试验结果的概率相加，得到 px{x) 的值.例如，有三个 
试验结果（(1,2)，(2, 2), (2,1)) 的 X 的值为2,而每一个试验结果的概率为1/16,故 
px(2) = 3/16 
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随机变量 X 的分布列的计算 

对每一个随机变量 X 的值: r : 

(1) 找出与事件 {X = 0相对应的所有试验结果. 

(2) 将相应的试验结果的概率相加得到 px { x ). 


2.2.1 伯努利随机变量 

考虑抛 掷一枚 硬币，设正面向上的概率为？，反面向上的概率为1 - p . 伯努利 
随机变 量在试验结果为正面向上时取值为1,在试验结果为反面向上时取值为0,即 


它的分布列为 


x = \ l , 若正面向上， 
~ [0, 若反面向上. 



若 k = l , 
若 k = 0. 


由于伯努利随机变量非常简洁，因此它也是非常重要的随机变量.在实际中它 
用于刻画具有两个试验结果的概率模型. 例如： 

( a ) 在给定的时刻，一架电话机可处于待机状态或使用 状态； 

( b ) 一个人可以处于健康状态或患有某种疾病 状态； 

( c ) 作为一个人的政治态度，他可以赞成或反对某个候选人. 

进一步，我们可以将多个伯努利随机变量综合成更加复杂的随机变量.下面我们要 
讨论的二项随机变量就是其中之一. 


2.2.2 二项随机变量 


将一枚硬币抛掷 n 次，每次抛掷，正面出现的概率为 p ， 反面出现的概率为 1-p, 
而且各次抛掷是相互独立的 .令 X 为 n 次抛掷得到正面的次数.我们称 X 为二 
项随机变量， 其参数为 n 和 p . X 的分布列就是在 1.5 节中讨论的二项 概率： 


px ( k ) = P(X = fc ) = (^ jp k ( l - p ) n - k , fc = 0， l ，...， n . 

(按照传统，我们用 代替; c ， 表示整数值随机变量 X 的取值 .） 对于二项随机变量， 
利用归一化公理可以得到 
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在图 2.3 中，用图像表示某些特殊情况的二项分布列. 


Px(k) Px(k) 



图 2.3 二项随机变量的分布列.当 P = 1/2时，分布列是相对于 n /2 对称的.当 P < 1/2时， 
相应的分布偏向0,当 p > 1/2时，相应的分布偏向 n 

2.2.3 几何随机变量 

在连续抛掷硬币的试验中，每次抛掷，正面出现的概率为 p ， 反面出现的概率为 
1- P , 而且各次抛掷是相互独立的.令 X 为连续地抛掷一枚硬币，直到第一次出现 
正 面所需要抛掷的次数 . X 就称为几 何随机变量.前 fc - 1次抛掷的结果为反面向 
上，第 fc 次抛掷的结果为正面向上的 惲率为 ( i - P ) fc - V 因此 x 的分布列为 

Px{k) = (1 fc = l，2，.... 

关于几何随机变量的分布列的图像可见图 2.4 .从 

Y2px(k) = X^(i-p) fc ~ 1 p=p^(i-p) fc = 1 ， 

可知 X 是一个取正整数值的随机变量（在连续抛掷硬币的试验中，永远出现反面 
向上的概率为 0). 


Px{k) 



图 2.4 几何随机变量的分布列. ㈦ = (1 - p) fe -V fc = 1, 2,…，是一个几何级数，递减 
的因子为1 —p 

此处，利用抛掷硬币的试验恰巧是抓住了事物的本质.更一般地，连续抛掷硬 
币的试验序列中出现正面可以解释为独立试验序列中的一次试验“成 功”， 这样几 
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何随机变量可以解释为独立试验序列中直到试验第1次“成功”所需的试验次数. 
而试验“成功”的意义是随着所讨论的问题的实际背景而变化的.例如可以是在某 
次测验中通过了考试，在某次搜索中发现目标，或成功地进入计算机系统等. 

2.2.4 泊松随机变量 

设随机变量 X 的分布列由下式给出 

Px(k) = e_A ： ^j- ! fc = 0,1,2, • • • , 

其中 A 是分布列中取正值的参数，则称 X 是泊松随机变量（见图 2.5) .由于 



这个数列符合分布列的定义 ® 


Px 消 Px(M 



图 2.5 对应于不同的 A 的泊松随机变量的分布列.当 A < 1时，分布列是单调递减的.当 
入> 1 时, 分布列随着 fc 的递增，先递增后递减（可参考本章末尾的习题） 

为了给出泊松随机变量的直观印象，考虑当二项随机变量的参数 n 很大， p 很 
小的情况.例如，令 X 为字数为 n 的一本书中含有打印错误的字数.这样， X 是 
二项随 f 变量. 但是，由于一个字被打印错误的概率 p 非常小， X 也可以用泊松分 
布列刻画（打错一个字相当于抛掷一枚硬币出现正面向上,但正面向上的概率 p 很 
小). 类似的例子很多，例如在一个城市中一天中发生车祸的事故数 .® 

用泊松随机变量刻画这样的现象十分 恰当. 更确切地说，参数为 A 的泊松随机 
变量的分布列是二项随机变量分布列的很好的 逼近： 

e ~ X ^\^^( n - k )\ pk{1 ~ Pr ~^ ^ 0 ， 1 ，…小， 

① 若这个总和不等于1,就与概率的归一化定律相冲突.——译者注 

② 普遍认为，第一个关于二项随机变量和泊松随机变量之间联系的实证例子，是在19世纪后半叶用 
泊松分布列去逼近波兰骑兵被马踢伤的人数. 
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其中 A = np , n 很大， p 很小.在这种情况下,泊松分布列使得模型简单，计算方便. 
例如 ， n = 100, p = 0.01，用二项随机变量计算成功次数 fc = 5的概率为 

. 0.01 5 (1 - 0.01) 95 = 0.002 90. 

利用泊松随机变量计算这个概率得到近似值 

= 0.003 06， 


其中 A = np = 100 • 0.01 = 1. 

在本章最后的习题中，我们将给出泊松逼近的严格证明.第6章将作进一步解 
释和推广，并且将结果用到泊松过程中去. 

2.3 随机变量的函数 

设 x 是一个随机变量.对 x 施行不同的变换，可以得到其他的随机变量.作 
为例子，用 X 表示今天的气温（单位为摄氏 度，。 C ). 作变换 y = 1.8 X + 32, 得到 
华氏温度的读数 (° F ). 在这个例子中 F 是 X 的线性函数 
F = g ( X ) = aX + b , 

其中 a 和6是数值.我们也可以考虑 X 的非线性函数 
Y = g ( X ). 


例如可以考虑对数度量，此时可用变换 g ( X ) = log ( X ). 

设 y = g ( X ) 是随机变量 X 的函数，由于对每一个试验结果，也对应一个 （F 
的）数值，故 F 本身也是一个随机变量.如果 X 是离散的随机变量，其对应的分布 
列为 PX ， 则 F 也是离散随机变量，其分布列可通过 X 的分布列进行计算.实际上, 
对固定的 y 值， PY (y) 的值可以通过下式计算 

py(v) = ^2 p^( x ) - 

{x\g(x)=y} 

例 2.1 可以利用上述公式计算 y = | X | 的分布列，其中 X 的分布列由下式给出， 

fl /9, 若工是[-4, 4] 中的整数， 

Px(x) = < 

lo , 其他. 


由于 y 的值域为 y = 0, 1 ， 2,3,4, 对于值域中的任意 y, 只需将满足 |rr| = 2 / 的所有 
Px(x) 的值相加，就可以得到 PY (y) 的值 . 当 y = 0 的时候，只有 a; = 0 能够满足条 
件 2/ =丨0! = 0. 这样 
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对于 y = 1 ， 2,3,4, 有两个 a: 值满足条件 y= |4 例如（见图 2.6 的图示说明) 



图 2 .6例 2 .1 中 X 和 y = | X | 的分布列 


现在看另一个随机变量 Z = X 2 .为了求得 Z 的分布列，我们既可以将它看 
成 x 的平方，也可以看成 y =叫的平方.利用公式 PZ ( Z ) =:—财 ㈤ 或 
抑⑷= E { y | f = z } My )， 得到 

{ 2/9，若；2： = 1,4,9,16， 

1/9，若2 = 0， □ 

0，其他. 

2.4 期望、均值和方差 

x 的分布列给出了 x 所有可能取值的概率.通常，我们希望将这些信息综合 
成一个能够代表这个随机变量的数 . X 的期望可以实现这个目的 . X 的期望就是 
X 的所有取值相对于它的概率的加权平均. 

一为了更好地理解期望的意义，假定你有机会转动一个幸运轮许多次.每次转动, 
幸运轮会出现一个数字，不妨设为 m u m 2 , …， m n 中的一个.这些数字出现的概率 
分别 为仍， 仍， …，〜 而出现的数字就是你所得到的钱数（给你的奖励).“每次” 
转动，你所“期望”得到的钱数是多少？此处“每次 ，，和 “期望”都是一些不确定的 
词汇.但是下面的解释可以把这些词汇的含义确定下来. 
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假定你一共转动幸运轮 fc 次，而其 中有& 次转动的结果为 r ^. 你所得到的总 
钱数为 + m 2 k 2 + ■••+ m n k n . 每次转动所得到的钱数为 

TTliki + 爪2 念 2 + . . . + T 7 l n k n 

M= - r - • 


现在假定 fc 是很大的一个数，我们有理由假定概率与频率相互接近.即 
h 

z = I ， ... ， n. 

这样你每次转动幸运轮所期望得到的钱数是 


M = 


rriiki + m2A：2 H -+ Tn n k n 

k 


— miPi + m 2 p2 H - h m n p n - 


由这个例子的启发，我们引进下面的定义 ® 


期望 

设随机变量 X 的分布列为 PX . X 的期望值(也称期望或均值）由下式 给出： 
寧]= ^2 xpx { x ). 


例 2.2 考虑两次抛掷一枚硬币的试验，而硬币的两面是不均勻的，正面向上的概 
率为 3/4 .令 X 是得到的正面数，这是一个二项随机变量， n = 2 ,p = 3/4. 它的分 


布列为 


故其均值为 


f (1/4) 2 , 若 fc = 0, 

Px ( k)=l 2-(1/4)-(3/4), 若 fc = l ， 
[(3/4) 2 , 若 fc = 2, 


E [ X ] = 0 - 



H.CI+ 2 . 



3 

2 


①当随机变量的取值范围为可数无限集合的时候，可能会遇到这样的 情况： 和号没有 
确切定义.通常，当 \ x \ Px ( x )< oo 的时候， X 的期望值有确切定义，它的值是一个有限数并 
且等于级数 E x ^ px ( x ) 的部分和的极限，而这个极限值与求和号内各项的次序无关. 

作为一个反例，考虑随机变量 X 的取值范围为2 1 ,2 2 , ... ，相应的概率分别为2- 1 ,2- 2 , •.- ， 
此时级数 EjPx ( x ) = oo , 并称 X 的期望无确切定义.另一个反 例是： X 取妒和 - 的概 
率为 2- fc ， k = 2,3,- -. 这个例子中 X 的期望也无确切定义，其原因是 I ：: \ x \ p x ( x ) = oo .尽 
管这个随机变量是相对于0对称的，其期望值似乎可以定义为 0. 

本书所涉及的随机变量的期望总是有定义的，因此在论证中默认随机变量的期望是有定义的. 
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通常将 X 的均值解释为叉的代表值，它位于 X 的值域中间的某一点.更确 
切地，可以将分布的均值看成分布列的“重心”（见图 2.7 的解释).特别，当随机变 
量的分布列具有对称中心的时候，这个对称中心必定为这个对称随机变量的均值. 



重心 c = :均值 = E [ X ] 

图 2.7 均值作为重心的解释，设在一根杆上在 a : 处放上质量为 Px ( x ) 的物质, Px ( x ) > 0. 
所谓重心是指杆上的平衡位置 c , 使得 c 的右边的力矩等于 c 的左边的力矩.即满足 

— c)px (x) = o 

的 c . 因此 c = I ：, xpx ( x ), gp E [ X ] 等于 X 的质量分布的重心 

2.4.1 方差、矩和随机变量的函数的期望规则 

期望是随机变量及其分布列的重要特征.此外，还有其他重要的特征量.例如 
随机变量 X 的二 阶矩定 义为随机变量 X 2 的均值.进一步 n 阶矩 E[X n ] 定义为 
X "的期望值.这样均值本身就刚好是一阶矩. 

除了均值，随机变量 X 的最重要的特征量是 方差， 记作 var ( X ). 它由下式定义 

var ( X ) = E [( X - E [ X ]) 2 ]. 

由于 ( X - E [ X ]) 2 只能取非负值，故方差只能取非负值.方差提供了 X 在期望周围 
分散程度的一个测度.分散程度的另一个测度是标 准差， 它由下式定义 

crx = y/va,r(X). 

标准差具有实用性，因为它的量纲与 X 的相同.例如 X 是以米为单位的长度，方 
差的单位为平方米，而标准差的单位为米. 

计算方差的一种方法是先行计算随机变量 ( X - E [ X ]) 2 的分布列，然后利用期 
望值的定义计算 X 的方差 • （X - E[X}) 2 是随机变量 X 的函数，可利用前面提供 
的方法计算 （X - E [ X ]) 2 的分布列. 

例 2.3 考虑例 2.1 中的随机变量 X ，它的分布列为 


Px(x) 


1/9，若: c 是[-4, 4] 中的整数, 
0,其他. 
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此时,均值 E[X] = 0. 这可以从分布的对称性看出，也可以从期望的定义直接计算 
得到 

E [ X ] = ^2 x Px(x) = ^ 4x = 0. 

x x=~4 

令 Z = (X - E[X]) 2 = X 2 . 在例 2.1 中，已经得到 

{ 2/9 ， 若 =1,4.9, 16 
1/9, 若 z = 0 ， 

0，其他， 

这样, X 的方差为 

var(X) = E[Z] = W = 0 . | + 1 . ■ + 4 •誉 + 9 •誉 + 16 誉 = 芽 . 

计算 var(X) 时并不需要先行计算 （X - E[X}) 2 的分布列，而另有更加便利的 
方法.这种方法根据下面的规则得到. 

随机变量的函数的期望规则 

设随机变量 X 的分布列为 Px ， 又设是 X 的一个函数，则 
望由下列公式得到 

E ["W] = ^2g(x)p x (x). 


为验证此公式,令 Y = g(X) 并利用 2.3 节导出的公式 
Pr(y) = ^2 Px(x), 

{x\g(x)=y} 

得到 

E[p(X)] = E[Y] 

= Ylypy(y) 

y 

= Y^y p^ x ) 

y {®| g ( x )= y } 




= Y1 ypx( x ) 
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=Y1 ^2 ff( x )px(x) 

y {x\g{x)=y} 

= ^2g(x)px(x). 


将期望规则应用到 x 的方差，我们得到 

var ( X ) = E [(X - E [ X ]) 2 ] = - E[X]) 2 Px (x). 

相似地，对于 X 的 n 阶矩，我们有 

E[X”]=J>Xx). 

X 

因此在计算 X 的 n 阶矩的时候，我们不必先求 X "的分布列. 

例 2.3( 续）设随机变量 X 的分布列由下式给出， 

,、 fl /9, 若 a : 是[-4, 4] 中的整数， 
PxW = < 

lo , 其他， 


利用期望规则得到 

var(X) = E [(X - E[X]) 2 ] 

= ^2{x -E[X]) 2 px(x) 

Jt ， 

9 土 4 

=^(16 + 9 + 4+1+0 + 1 + 4 + 9 + 16) 

60 
= Y' 

这个结果与早先得到的结果是一样的. 

先前已经提到，方差是非负的.那么是否可为0?由于在方差的公式 Ex (^- 
E[X}) 2 p x (x) 每一项都是非负的.为了使得这个和号为0,其充要条件是对每一 
个％ Or - E[X]) 2 p x (x) = 0. 这个条件说明对每一个使得 p x (x) > 0的％均有 
a ; = E[X}. 这说明 X 其实不是随机的，随机变量 X 等于 E[X] 的概率为 1. 
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方差 

随机变量 X 的方差由下列公式所 定义： 

var ( X ) = E [( X - E [ X ]) 2 ]. 

并且可以用下式进行 计算： 

var ( X ) = - E [ X ]) 2 Px ( x ). 

它是非负的，其平方根称为 标准差 ，记为 

2.4.2 均值和方差的性质 

我们将用随机变量的函数的期望规则导出一些均值和方差的重要性质.首先 
考虑随机变量 X 的函数 

Y = aX + b , 

其中 a 和6是已知常数.关于线性函数 F 的均值和方差，我们有 

E l Y ]=Y,^ ax + b )Px( x )=a^xpx(x)+bY,Px(x)=aE[X} + b. 

X X X 

进一步地 

var ( Y ') = > : (ax + b — + 6])^ px ( x ) 

= {ax + b — aE [ X ] — b ) 2 px ( x ) 

= a 2 ^2( x - E [ X ]) 2 p x ( x ) 

= a 2 var ( X ). 

随机变量的线性函数的均值和方差 

设 X 为随机变量，令 

Y = aX + b , 

其中^和6为给定的常数，则 

E [ Y ] = aE [ X ] + b , var ( y ) = a 2 var ( X ). 

此外,我们还将证明如下一个方差的重要公式. 

用矩表达的方差公式 

var ( X ) = E [ X 2 } - ( E [ X ]) 2 . 
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这个用矩表达的方差公式的证明可以通过下列等式 完成： 

var(X) = [] (a ； — E[X]) 2 p x ㈤ 

= E (: r 2 -2 E [ X ] + ( E [ X ]) 2 ) Px (: r ) 

= J > 2 奴 ㈤ - 2 E [ X ] + ( E [ X ]) 2 J > x (: r ) 

XXX 

= E [ x 2 } - 2( E [ X ]) 2 + ( E [ X ]) 2 
= E [ X 2 ]-( E [ X ]) 2 . 

最后我们用例子说明期望运算的一个 缺陷： 除非 g ( X ) 是一个线性函数，一般 
情况下 E [ 5 ( X )] 不等于 g ( E [ X }). 

^ 2.4 (平均速度和平均时间）如果遇到好天气（这种天气出现的概率为 0.6), 爱 
丽丝会步行 2 英里上学，步行速度为每小时5英里 （V = 5). 天气不好的时候，她 
骑摩托车上学，时速30英里 （V = 30). 她上学所用的平均时间是多少？ 

正确的方法是先计算时间 r 的分布列， 

t = 2/5小时， 
t = 2/30小时， 

然后计算均值 

E [ T ]=0.6.^+0.4.^ = ^ m . 

然而，下面的计算是错 误的： 先计算平均速度 

E [ V ] =0.6-5+ 0.4-30= 15英里/小时， 

然后声称平均时间为 

‘=盖英里/小时. 

总之,在这个例子中 

E [ T ] = e [1]^. □ 

2.4.3 某些常用的随机变量的均值和方差 

我们将推导出一些重要的随机变量的均值和方差，在本课程中经常会遇到这些 
公式. 

例2. 5 (伯努利随机变量的均值和方差）考虑抛掷一枚硬币，设其正面出现的概率 
为 P ， 反面出现的概率为 l _ p . 伯努利随机变量的分布列为 


PT(t) = 


0.4, 
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Px(k) = 


P ， 


若 fc = 1， 
1丄 一 p ， 若 k = 0. 
下面给出了它的均值、二阶矩和方差的计算公式 


E [ X ] = l-p + 0-( l - p )= p , 

E [ X 2 J = 1 2 -p + 0 2 -(1-p)=p, 
var ( X ) = E [ X 2 } - ( E [ X ]) 2 = p - p 2 = p(l - p ). 


□ 


例 2.6 (离散均匀随机变量）设涉及的试验是抛掷一个均匀的具有6个面的骰子. 
其平均点数和方差是多少？我们将试验结果看成一个随机变量,它的分布列为 
,, n / l /6， 若 fc = 1，2,3,4,5,6， 

Px(k) = < 

[ o , 其他. 

由于分布列相对于3. 5 是对称的，我们得到 E [ X ] = 3.5. 关于方差，我们有 
var ( X ) = E [ X 2 } - ( E [ X ]) 2 

=臺(1 2 + 2 2 + 3 2 + 4 2 + 5 2 + 6 2 ) - (3.5) 2 , 

这样，可得到 var ( X ) = 35/12. 

上面的随机变量是 离散均勾随机变量 的特殊情况.按定义离散均勻随机变量 
的取值范围是由相邻的整数所组成的有限集，而取每个整数的概率都是相等的.这 
样它的分布列为 


Px(k) = 


6 — a + 1 

0 , 


若 k = a , a + 1,-.. , b , 
其他， 


其中 M 是两个整数，作为随机变量的值域的两个端点 ， a < 6( 关于 X 的分布列的 
图示见图 2.8). 由于它的分布列相对于 ( a + 6)/2 是对称的，其均值为 

E[X] = 宇 . 

为计算 X 的方差，先考虑 a = 1和6 = n 的简单情况.利用归纳法可以证明 


E [ x2 ] = |f> 2 = ^( ri + 1 )( 2 n+ 1 ) 


(具体证明过程留作习题).这样利用一、二阶矩，可得到 X 的方差 


var ( X ) = E [ X 2 } - ( E [ X ]) 2 

= g ( n + l)(2n + 1) — ^(n + l) 2 

n 2 -l 
= 12 _ 
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Px(k) 



图 2 .8在 a 和&之间均匀分布的随机变量的分布列_它的均值和方差为 
E [ X ] = var ( X ) = (b-a)(b-a + 2) 


对于(1和 6 的一般情况，实际上在区间 [ a ， b ] 上的均勻分布与在区间 [1,6- a + l ] 
上的分布之间的差异，只是一个分布是另一个分布的推移，因此两者具有相同的方 
差（此处区间 [ a ，&] 是指处于 a 和6之间的整数的集合).这样，在一般情况下， X 的 
方差只需将简单情况下公式中的 n 替换成& - a + 1，即 


var(X) = 


( fe-a + 1) 2 -： 


(b — a)(b - a + 2) 

12 . 


例 2 .T (泊松随机变量的均值）设 A ： 的分布列为泊松分布列，即 


Px(k) =e~ 


A fe 


^ = 0 , 1 , 2 , 


其中 A > 0为常数.其均值可从下列等式得到 

寧 ] = ： f>_ A 答 


= Z ^ fce _ A 4 r 0 = 0这一项为0) 

k=i 

A fc -! 


= A H < 


= A E e_A 


(令 m = fc - 1) 


最后一个等式利用了泊松分布列的归一化性质 

相似的计算指出泊松随机变量的方差为 A (见本章 2.7 节的例 2.20). 在以后的 
章节中将用不同的方法导出这个事实. 
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2.4.4 利用期望值进行决策 

设想有一个项目，有几种处理方案.而每种处理方案都有随机的回报，那么用 
什么样的准则去最优地选择处理方案呢？期望值是一个合理且方便的准则.如果把 
期望回报看成一个处理方案长期重复执行的平均回报，那么选择具有最大期望回报 
的策略是合理的.下面是一个例子. 

例 2.8 (智力测验）这是一个具有随机回报的实施方案最优选择的典型例子. 

在一个智力游戏中一共有两个问题需要回答，但游戏规则要求你选择一个问题 
作为首先回答的问题.问题 1 比较容易，你能够正确回答的概率为 0 . 8 . 回答正确就 
能够得到100美元的奖金.问题2比较难，你能够正确回答的概率为 0.5. 回答正 
确就能够得到200美元的奖金.若你选定一个首先回答的问题却不能正确地回答， 
你不但不能拿到奖金，而且也不容许回答第二个问题.若你能够正确地回答第一个 
问题，就还有机会回答第二个问题.为了使奖金总和的期望值最大，你应该选择哪 
一个问题作为首先回答的问题？ 

这个问题并不简单，高回报必有高风险.希望首先回答问题2,奖金多，但是问 
题比较难，并且要冒着不让回答问题1的风险.我们将所得到的奖金总额作为随机 
变量 X ，并且计算两种可能的回答问题的次序下的期望值 E [ X ] (见图2_9). 



首先回答问题1 首先回答问题2 

图 2.9 智力测验问题中的两种实施方案的序贯树形图说明 


( a ) 先回答问题 1:此时 X 的分布列为（参考图 2 . 9 的左边） 

p x (0) = 0.2, p x (100) = 0.8-0.5, p x (300) = 0.8.0.5, 

由此得到 

E [ X ] = 0.8 - 0.5 - 100 + 0.8 - 0.5 - 100 = 160( 美元). 

( b ) 先回答问题 2 :此时 X 的分布列为（参考图2. 9 的右边） 

p x (0) = 0.5, (200) = 0.5. 0.2， px (300) = 0.5 ■ 0.8, 

由此得到 

E [ X ] = 0.5 - 0.2 - 200 + 0.5 - 0.8 - 300 = 140( 美元) • 

这样看来，首先回答比较容易的问题1比较合算. 
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现在将这个具体的例子推广成一般的问题.用 Pl 和 P2 分别表示正确回答问 
题1和问题2的概率，用 w 和^分别表示正确回答问题后所得到的奖金.若先回 
答问题1，则所得到的奖金总额为 

E [ X ] = Pi(l - P2)vi +PlP2{vi +v 2 )= PlVi +P1P2V2, 

而先回答问题2,所得到的奖金总额为 

E [ X ] = p 2 (l ~Pl)v2 +PlP2{vi + v 2 ) = P2V2 +P1P2V1. 

这样，最优策略为先行回答问题 1 的充要条件是 

Pl^l +P1P2V2 > P2V2 +P1P2V1, 

或等价的条件 



这样，每一个问题都有一个指标 pv /( l - p ), 其中 p 就是正确回答问题的概率， r 就 
是正确回答问题以后所得到的奖金. pv /( l - p ) 的值大，相应的问题就应该优先回 
答.这个问题还可以推广到多于两个问题的情况（见本章后面的习题). □ 

2.5 多个随机变量的联合分布列 

在一个试验中经常涉及几个随机变量.例如，在医疗诊断中，通常涉及几个试 
验指标，或者在网络中我们常常对几个网关的负荷感兴趣.所谓多个随机变量是指 
在同一个试验结果之下产生的多个随机变量.它们所涉及的样本空间和概率律是 
相同的.这些随机变量的取值是由试验结果确定的，因此它们的取值相互联系.现 
在考察它们取值的概率.本节将分布列和期望推广到多个随机变量的情况.以后我 
们还要讨论条件和独立这样的概念，这些概念是与第1章中讨论的概念平行的. 

现在设在同一个试验中有两个随机变量 x 和 y . 它们的取值概率可以用它们 
的联合分布列 刻画，并且用 p x , Y 表示.设（: T ，2/) 是叉和 y 的可能取值， （ a :，^/) 的 
概率质量定义为事件 { X = x,Y = y } 的 概率： 

Px,Y(x,y) = P(X = x,Y = y ). 

今后我们使用简洁的表达式 P(X = x,Y = y ), 尽管 P({X = 封 n {y = y }) 或 
P(X = : c 和 F = y ) 是更准确的表达式. 

利用联合分布列可以确定任何由随机变量 X 和 F 所刻画的事件的概率.例如 
A 是某些 ( x , y ) 所形成的集合，则 

P (( X , Y ) eA )= Px,Y(x,y). 

{x,y)GA 
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事实上，我们还可以利用 x 和 y 的联合分布列计算 x 或 y 的分布列 

Px{x) = Px,Y (x,y), PY(y) = Px,v{x,y). 
y x 

关于 PX (4 的公式可以从下面的等式 得到： 

Vx{x) = P(X = x) 

= '£ P(X = x,Y = y ) 

y 

= ^Px,Y{x,y), 
y 

上面第二个等式是由于事件 {X = 4 是所有形如 {X = x,Y = y } 的互不相容的 
事件 之和. 关于奸⑼的公式的验证是完全类似的.为区别起见，我们称奴 ㈤ 或 
py ( y ) 为边缘分布列. 

可以通过表格计算 x 或 y 的边缘分布列.将 x 和 y 的联合分布列排成一 
个二维表, Px ( x ) 的值就是二维表格中与 a : 相应的那一行（或列）的所有值的总和. 
PY ( y ) 的值的计算是完全类似的.下面的例子和图 2.10 说明了其具体的操作方法. 


列表形式的联合 

分布列 PxA^, y) 


0 

1/20 

1/20 


3〈20 



1/20 

2/20 

3/20 

1/20. 

7〈20 

1/20 

2/20 

3/20 

1/20. 

7/20 

1/20 

1/20 

1/20 

0 . 

3/20 


3/20 6/20 8/20 3/20 

列和： 

边缘分布列 p x (x) 


行和： 

边缘分布列 Py{y) 


图 2 .10 例 2 .9 中计算 X 和 F 的边缘分布列的表格法说明. X 和 Y 的联合分布列 px,Y(x,y) 
的值列于表格中.在表中与 （ re ，?/) 相应的位置上的数为 px,Y(x,y). 对于给定的 a ;， 
只须把与 a : 相对应的列上的相应的 px, Y {x,y) 的值相加就得到 p x (x) 的值，例如 
Px(2) = 6/20. 相似地，对于给定的 y, 只须把与 y 相对应的行上的相应的 p x , Y (x,y) 
的值相加就得到 px(y) 的值，例如 P y(2) = 7/20 


例 2. 9 设 X 和 F 的联合分布列如图 2.10 所示 . X 的边缘分布列的值就是表中 
相应的列和，而 y 的边缘分布列的值就是表中相应的行和. □ 
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2.5.1 多个随机变量的函数 

存在多个随机变量的情况下,就有可能从这些随机变量出发构造出新的随机变 
量.特别地，从二元函数 Z = g ( X , Y ) 可以确定一个新的随机变量.这个新的随机 
变量的分布列可以从联合分布列通过下式计算 

Pz(z) = ^2 Px,v{x,y). 

进一步地，关于随机变量的函数的期望规则可以推广成下列形式 
= U 2 g ( x , y ) pjc ， Y ( x , y ). 

X y 

这个公式的证明与单变量函数的公式的证明类似.特别地，当 s 是形如 aX + bY + c 
的线性函数的时候,我们有 

E[aX + bY + c ]= aE [ X ] + 6E[y] + c , 

其中 a ， &， c 均为给定的常数. 

例 2 .9 ( 续）考虑随机变量 X 和 F , 它们的联合分布列由图 2.10 给出.由下面的 
等式给出一个新的随机变量 

Z^X + 2 Y . 

Z 的分布列可以通过下式计算 


Pz(z) = Px,y(x,y), 

{(x,y)\x-\-2y=z} 

利用图 2.10 的数据，得到 Z 的分布列 

%(3)=盍， P “4) =垒’於( 5 )=晶，郎⑹=|，郎⑺=孟 
? 綱 = 磊，： ^)= 晶， pz(10) = Pz (H) = l, pz(12 ) = 1. 

Z 的期望值可从 Z 的分布列得到 



= 7.55. 
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另外，也可以利用公式 


E [ Z ] = E [ X ]+2 E [ F ], 

利用图 2.10 的数据，先求出 X 和 F 的期望 

51 
20 ' 
50 
20 1 


E [ X ] = 
EM = 


3 „ 6 „ 8 ,3 

20 + 2 ' 20 +3 '20 +4 -20 = 


故 


E ^ = l +2 '1 = 7 - 55 - 


2.5.2 多于两个随机变量的情况 

设有三个随机变量 X ， F ， Z ， 其联合分布列的定义是类似的，即 

Px,Y,z(x,y,z) = P(X = x,Y = y,Z = z), 


□ 


其中 (x,y,z) ^ (X,Y,Z) 的所有可能的取值.相应地可以得到边缘分布列，例如 
Px,v{x,y) = ^2px,Y,z(x,y, z), 

px(x) = Y^Zpx,yA x ^^)- 

y z 

关于随机变量的函数的期望规则为 


Y,\g{X,Y,Z)] = '^2'^2^29{x,y,z)p x ,Y,z{x,y,z), 

x y z 

并且，如果 s 是形如 aX + bY + cZ + d 的线性函数，则 


E[aX + bY + cZ + d}= aE [ X ] + 6 E [ y ] + cE [ Z ] + d. 

进一步地,上面的结果可以推广到三个以上随机变量的情况.例如设 A x 2 , …， x „ 
为 n 个随机变量， ai ， a 2 ，…， a „ 为 n 个常数，我们有 


E[aiXi + 02^1 + • • • + a n X n ] = aiE [ Xi ] + a 2 E [ X 2] + ■ ■ ■ + a n E [ X „]. 

例 2.10 (二项随机变量的均值）你的概率班上有300个学生，每个学生有1/3的 
概率可得到成绩 A ， 并且相互独立.记 X 为班上取得 A 的学生数 . X 的平均数为 


多少？记 


Xi = 


1，如果第 i 个学生得 A ， 
0，其他. 
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这样， X 1: X 2j …， X „ 是独立的伯努利随机变量序列，其公共均值为 p = 1/3. 它们 
的和 

X = X\ + X2 + • • ■ + X n 

是班上取得 A 的人数.由于 X 是 n 次独立重复试验中“成功”的次数，它是二项 
随机变量，其参数为 n 和 

利用 X 是诸随机 变量足 的线性函数，我们有 


300 300 1 

E[X] = ^E[X,] = [； 去= 300 如 100_ 

i=l i=l 


如果我们把这个问题提成一般的问题，设班上有 n 个学生，每个学生得 A 的概率 
为 P ， 则 

E w = [ E 闷 = Y2p = n p- □ 

i=l i=l 

例 2 .11 (帽子问题）假设一共有 n 个人，将他们的帽子放在一个盒子里，又随机 
地从中拿起一个帽子 （每 个人只拿一个帽子，并且人和帽子的各种对应都是等可能 
的).拿回自己的帽子的人数的平均数是什么？ 

对于每个人 i ， 如能拿到自己的帽子，则定义不=1,否则不= 0.由于 
P(Xi = 1) = 1 /n 和 P(Xi = 0) = 1 - 1/ n , 足的平均值为 



可知 


X = Xi + x 2 + ■■■ + x n , 

E[X] = E[X!] + E[X 2 ] + ■•■ + E[X n ] = n -- = l. 

n 


□ 


关于联合分布列的小结 

设 x 和 y 为在某个试验中的随机变量. 

• X 和 Y 的联合分布列 p X y 由下式定义 

Px,v(x,y) = P(X = x,Y = y). 

• X 和 Y 的边缘分布列可由下式得到 

Px(x) = ^2 Px,y(x,v), p Y (y) = ^2 px,y (x,y). 
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• x 和 y 的函数 〆 x ， y ) 是一个随机变量，并且 

E [g(X, y)] ='^2'^2g(x,y)p x ,Y(x,y). 
x y 

若 g 是线性的，且 s = aX + + c ， 则 

E[aX + bY + c} = aE[X] + bE[Y] + c. 

•上面的结论可以自然地推广到两个以上的随机变量的情况 • 


2.6 条 件 

在第1章中，我们已经指出条件可以给某些事件提供补充信息，当然条件也可 
以对随机变量取某些值提供某些补充信息.我们将引进随机变量条件分布列的概 
念，此处的条件是指某个事件的发生或其他随机变量的值的给定.本节将讨论条件 
分布列的性质.实际上,条件的概念并不是新的，我们只是根据随机变量的特点，重 
新细述一遍，引进一些新的记号而已. 

2.6.1 某个事件发生的条件下的随机变量 

在某个事件 A(P(A) > 0) 发生的条件下，随机变量 X 的条件分布列由下式定 
义： 

/、 n 〜 ^ P ({X = x}r\A) 

Px\a{x) = P(X = x\A) = p ㈤ . 

注意，对于不 同的： C , {X = 4 n A 是互不相容的事件，它们的并为 A . 因此 
P(A)=^P({X = a ； }nA). 

比较得到的两个式子，可以看出 

^2px\a{x) = 1 , 

故符合分布列的要求. 

条件分布列的计算也与无条件分布列的计算一样，将满足 X = x 并且属于 A 
的试验结果的概率相加，最后除以 P(A), 便得到 p xlA (x) 的值. 

例 2.12 令 X 为滚动一个均匀的6面体骰子所得到的点数, A 表示滚动后得到 
偶数点的事件.利用前面得到的公式 



_ 2.6 条件 87 

Px\ A (k) = P(X = fc | 滚动后得到偶数） 

P(X = fc 和 X 是偶数） 

_ P (滚动后得到偶数） 

_ 1 1/3,若 fc = 2,4,6， 

~\ o , 其他. 口 

例 2 .1 3 —个学生参加某种测验,他可以多次重复地参加测验，但最多不能超过 n 
次.每次测验以概率 p 通过，而且与前几次的测验结果独立.假定学生已经通过的 
条件下，他测验次数的分布列是什么？ 

令4是学生最终通过测验的事件（他最多参加 n 次测验).我们引进随机变量 
X ， X 表示为了通过测验所需要参加测验的次数（假定容许他无数次参加测验 ) . X 
是一个几何随机变量，其参数为刻画条件的事件是 A = { X < n }. 这样 


p ⑷ = P r-v 

m=l 

从而，学生测验次数的条件分布列为 



图 2 .11例 2 .13中计算条件分布列 p xlA (k) 的图示说明.首先将 X 的无条件分布列 Px {k) 
进行 修改： 将所有不在 A 中的 fc ， 其分布列的值清成 0. 然后将所有的分布列的值除 
以 P (4)， 进行归一化，得到条件分布列 

图 2 .1 2 给出了计算条件分布列更一般的说明. 

2-6.2 给定另一个随机变量的值的条件下的随机变量 

设某一个试验中有两个随机变量 X 和 F . 我们假定随机变量 Y 已经取定一 
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图 2.12 计算条件分布列 p xlA (x) 的图示说明.对每一个 a 将属于事件 {X = x}nA 的试验 
结果的概率相加，再除以 P (4) 以归一化，得到 PxlA (x ) 的值 


个值 2/ ( py ( v ) > 0)， 这个 y 值提供了关于 X 取值的部分信息.这些信息包含于 X 
的给定 F 的值的条件分布列中.所谓条件分布列就是 p x]A , 其中事件4就 
是事件 {Y = y } : 

Px \ y { x \ v ) = P(X = x\Y = y). 

利用条件概率的定义，我们有 


Px\v{x\y) = 


P(X = x,Y = y) 
p(y = V) 


= Vx,v{x,y) 
~ PY(y) 


现在我们固定 y 的值 (p Y (y) > 0), 考察 o ; 的函数 p xlY (x\y ). 这个函数符合 
X 的分布列的 要求： 对每个 rc, p xlY (x\y) ^ 0, 并且将这些值累加后得 1. 另外，作 
为 x 的函数，其形状与 p x , Y (x，y) 相似.两者相差一个因子 p Y (y ), 这个因子使得 
Px \ y { x \ v ) 满足条件 

^2px\y{x\v) = 1 . 

图 2.13 展示了条件分布列的特性. 

利用公式 

Px,y(x,y) = PY{y)px\Y(x\y), 

或利用 

Px,v{x,y) = Px(x)p Y \x(y\x), 

可以计算联合分布列.该方法类似于第1章中的序贯树形图的乘法规则.下面提供 
一个例子. 

例 2.14 霍许对教授在为学生答疑时常有答错问题的现象.她每次答错问题的 
概率为 V4, 而且各题的答疑是独立的.每堂课上，同学提问的问题可能有 0，1 或 
2 个，相应的概率均为 1/3. 记 X ， F 分别为一堂课上同学提问的次数和回答错 
误的次数.为得到 X 和 y 的联合分布列，我们必须对每一组值 (x,y ) 计算概率 
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P(X = x,Y = y ). 这可以利用序贯树形图的乘法规则（见图 2.14 的说明).例如，在 
课堂上，只提出一个问题并回答错误的概率为 

Px,y{ 1 , 1 ) = Px{x)p Y \x{y\x) = m 



图 2 .13计算条件分布列 Px \ v { x \ y ) 的图示说明.对每一个 2 /，将可以将 Px \ y ( x \ y ) 看成联合 
分布列 Px,y(x, V ) 沿 F = 2 /的一个切片，并且归一化后使得 

^2px\y{x\v) = 1 



概率：1/48 
概率: 6/48 
概率: 9/48 
概率: 4/48 

概率： 12/48 


X :提出题数 Y ： 回答错误的 
问题数 


0 

0 

1/48 


0 

4/48 

6/48 


16/48 

12/48 

9/48 


0 

1 

2 

X 


列表形式的联合 

分布列 px . A ^ v ) 


图 2.14 计算例 2.14 中的联合分布列 px / ky ) 
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可将联合分布列的数值列成一个表（见图 2.14). 这个表可以用于计算任何相 
关事件的概率.例如 

P (霍许对教授在堂上有回答错误的现象）= pxy { l , l )+ px , y (2,1) + p x , y (2,2) 

4 6 1 n 

= 48 + 48 + 48' 


条件分布列也可以用于计算边缘分布列，即有 

px(x) = J2px ， y( x ， y) = 5Zpy(y)Px|yOly)_ 
y y 

这个公式就是第 i 章中的全概率公式，不过用了不同的记号而已.下面是一个例子. 
例 2.15 考虑计算机网络中的一个信息传送器.下面是有关的随机变量. 

X :给定消息的传送时间 F : 给定消息的长度. 


我们知道给定消息长度的条件下传送时间的分布列和消息长度的分布列.我们希 
望找到传送一个消息的时间的（无条件）分布列. 

假定一个消息的长度可以取两个可 能值： 2/ = 10 2 和 y = 10 4 ( 单位： 比特)，取 
值的概率分别为 5/6 和 1/6. 这样 


pv ( y ) = 



若2/ = 10 2 , 
若2/ = 10 4 . 


传送时间依赖于消息的长度和当时网络的拥塞程度，特别传送时间为 io- 4 y 的概 
率为 1/2, 传送时间为 10^ 3 y 的概率为 1/3, 传送时间为 10~ 2 Y 的概率为 1/6 .这 
样，我们得到 


[ l /2, 

P 寧 O|10 2 ) = j 1/3, 

[ l /6, 


若 x = 10 -2 , 
若 rc = 10 _1 , 
若 a ; = 1; 


[ l /2, 

p X |r(a ： |10 4 ) = < 1/3, 
[ l /6, 


若 ： E = 1, 

若 a ; = 10， 
若 a ; = 100. 


为找到 X 的分布列，我们利用全概率公式 


得到 


px{x) = ^2pY(y)px\Y(x\y), 
y 

奴(矿〜暑. •’ 一 H 

Px(10) = ^ px(100) = 

d o 6 6 


□ 
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最后，我们可以将条件分布列的概念推广到含有两个以上的随机变量的情况, 
例如咖）或的情况.但是这种概念和方法的推广是没有难 
度的. 


关于条件分布列的小结 

设X和 F 为某一试验中的两个随机变量. 

• 条件分布列与无条件分布列完全类似，其差别只是前者是在已知某事件发 
生的条件下的随机变量的分布列. 

•设4为某事件， P(^) > 0. 随机变量X在给定 A 发生的条件下的条件分 
布列为 

Px\a(x) = P(X = x\A), 

并且满足 

^2px\a(x) = 1 . 

• 设^^，…，是一组互不相容的事件，并且形成样本空间的一个分割.进 
一步假定 P (次）> 0对一切 i 成立，则 

Px{x) = ^2P(Ai)p xlA .(x). 
i=l 

(这是全概率定理的一种特殊情况 .） 进一步假定事件 s 满足对一切 i， 
P(Ai n _B) > 0,则 


Px\b(x) = ^2P(Ai\B)p xlA . nB (x). 

i=l 

• 给定 y = y 的条件下 X 的条件分布列与联合分布列之间有下列关系 
Px,y(x,y) = PY{y)px\v{x\y)- 


• 给定 K 之下的X的条件分布列可以通过以下公式计算X的边缘分 布列: 

Px{x) = y^,PY(y)px\Y(x\y). 

V 

• 上面的结论可以自然地推广到两个以上的随机变量的情况. 


2.6.3 条件期望 


条件分布列就是一个通常的分布列，不过它的样本空间由条件所限定的试验结 
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果组成，相应的事件的概率变成条件概率.同样的原因，条件期望就是通常的期望, 
不过试验结果的空间由条件所限定的试验结果所组成.相应的概率和分布列都换 
成条件概率和条件分布列（关于条件方差的处理是完全类似的).下面列出有关的 
定义和性质. 



上述最后的三个等式适用于不同的场合,但它们本质上是相互等价的.它们都 
可以称为全期望定理.这些定理表达了这样的一个 事实： “无条件平均可以由条件 
平均再求平均得到 •” 通过全期望定理可利用条件概率或条件期望计算无条件期望 
E [ X ]. 现在验证三个公式中的第一个公式.先写出全概率公式 
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Px ( x ) = [^(物私(私)， 

i=l 

再在两边乘 Z 并对一切 X 求和，得到 

E [ X ] = J ^ xpxix ) 

X 

= Xp ⑷卽“私） 

X 2=1 

=史 p ⑷ XI 耶私(私） 

i=l x 

= f >(4) E [ X | 姑 

i=l 

其他两个公式的验证是类似的. 

例 2.16 设波士顿的一台计算机通过数据网络发送 消息： 发往纽约的概率为0.5, 
发往芝加哥的概率为0.3,发往旧金山的概率为 0.2. 传输的时间 X 是一个随机变 
量,发往纽约时的平均时间为 0.05 秒，芝加哥为 0.1 秒，旧金山为 0.3 秒.利用全期 
望公式很容易得到 

E [ X ] = 0.5 • 0.05+ 0.3-0.1+ 0.2-0.3 = 0.115( 秒). □ 

例 2.17 (几何随机变量的均值和方差）你一次又一次地写一个计算机软件，每写 
一次都有一个成功的概率假定每次成功与否与以前的历史记录相互独立.令 X 
是你一直到成功为止所写的次数(最后一次你成功了！ ）. X 的期望和方差是多少？ 
由于义 是一个几何随机变量,其分布列为 

px ( k ) = (1 - p ) fc - V , A ; = 1,2,…. 

X 的均值和方差的公式是 

E [ X ] = f>(l - p 产 _ V， var ( X ) = - E [ X ]) 2 (1 - p ) fc _ V 

k=l k=l 

计算上面的无穷级数有一些麻烦.我们利用全期望定理进行计算.记= {X = 
1} = { 第一次就写成功}， A 2 = { X > 1 } = { 第一次没有成功}.如果第一次就写成 
功 （X = 1)，这样 

E [ X\X = 1] = 1. 

如果第一次失败 (X > 1), 我们浪费了一次努力，必须重新开始.这样 
E [ X|X > 1] = 1 + E [ X }. 
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因此，由全期望定理 

E [ X ] = P ( X = 1 ) E [ X\X = 1] + P(X > 1 ) E [ X\X > 1] 

= p +( l - p)(l + E [ X ]). 

由此可得 

相似地，我们有 

E [ X 2 \X = 1] = 1， E [ X 2 \X > 1] = E[(l + X ) 2 ] = 1 + 2 E [ X ] + E [ X 2 }, 

故 

E [ X 2 ] = p . 1 + (1 - p)(l + 2 E [ X ] + E [ X 2 ]), 

从而 

E 捫 = 1 + 2(1-P)EW ， 

V 5 

再利用 E [ X 2 } = 1/ p , 得到 
最后我们得到 

var ( X ) = E [ X 2 } - ( E [ X }) 2 = 4--~4 = 

v p p z p 2 

例 2.18 (两个信封的悖论）这是一个引起广泛兴趣的智力测验问题，它涉及有关 
条件期望的数学要点. 

主持人给你两个信封，并且告诉你两个信封里有现金，其中一个信封里的钱是 
另一个信封里的 m 倍 （m > 1，且是一个整数).当你打开其中一个信封，看到信封 
里面的钱数以后，你可以收下这个信封里面的钱作为你的奖金，也可以要另一个信 
封里的钱作奖金.有什么好的策略可使你拿到较多的奖金？ 

下面有一个推理，其结论是有利于换信封的.令 A 是你打开的信封， S 是你 
可能换的信封. 令: r 和 y 分别为信封4和 S 中的钱数.论证 如下 ： y = z / m 或 
y = mx , 两种情况发生的概率分别为 I / 2 .因此,给定的 a;，y 的期望值为 

1 z 丄 1 1/1 \ 1+ m 2 

2 -m + 2 - mX = 2 { m + m J X =- 2 ^ r X>X - 

这样，你应该总是转向信封 R 当 你转向 B 的时候，由于同样的理由，又得转回到 
A. 这样陷入了矛盾之中. 

在这个悖论中，有两个假设是有瑕疵的. 
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( a ) 对于两个信封内的钱你无法先知先觉.当给定 rr 的值以后，你只知道 y 的 
值等于 z 的 m 倍或 1/ m 倍.当然，你没有理由假定哪种情况更有可能. 

( b ) 用随机变量 X 和 F 表示两个信封内的钱数.若 

E[Y\X = x]>x 

对一切 o : 成立，那么“总是转向能够得到更多的期望奖金. 

现在仔细分析这两种假设. 

假设 （ a ) 是有瑕疵的，因为它没有说明相应的模型.事实上，一个确定的模型, 
各种事件，包括 X 和 y 的可能取值，都应该有确定的概率.有了 X ， F 的概率知识， 
X 的值一定会提供 y 取值的某些知识.例如某人选择 Z 元放在一个信封内， Z 的 
取值范围为 [2, 司内的整数，并且服从某个分布率，而在另一个信封内放入 Z 的 m 
倍的钱数.然后，你以等概率从两个信封中随机地抽取一个信封，看里边的钱数 X 
的值.当 X 的值比5大的时候，你可以肯定你拿到的信封里的钱数是比较多的，因 
此你不必换 信封. 若你拿到的钱数等于2的值，那你可以肯定另一个信封中的钱数 
比圣多，因此你必须换信封.大致上可以这么说，如果你若能够知道 X 的值域或取 
值的可能性，你就可以知道 X 的值比较小，还是比较大，这样就可以决定是否应该 
换信封了. 

从数学上说，一个概率模型中，我们一定能够找到 X 和 y (信封4和 S 中的 
钱数）的联合分布率. X 和 F 的联合分布率可由两个信封中的钱数的最小者 Z 的 
分布率所确定.设 Z 的分布率为 Pz . 则对一切 A 

Px,y(mz, z) = px,y( z , mz ) = \pz{z), 

对于不具有 {mz, z) ^ (z,mz) 的形式的 (x,y), 
px,v{x,y) = 0 . 

当 p x ,Y(x,y) 给定以后，我们可以用以下换信封的 规则： 

换信封的充要条件为 E[Y\X = x]>x. 

按照这个规则，可以确定换或者不换信封. 

现在的问 题是： 按照上述的模型和转换规则是否可以按照某些 a ： 的值，转换信 
封，而另一些 z 的值不能转换？ 一般情况下是可以的,例如早先举出的 Z 的值域为 
有界集合的情况，就可以实现这样的转换规则.然而，下面的一个稍显怪僻的例子, 
使得你总是换信封. 

抛掷一枚均勻的硬币，直到出现正面为止.记 7 V 为抛掷硬币的次数.此时你将 
m N 元放进一个信封内，将 mN- 1 元放进另一个信封内.令 X 是你打开的那个信 
封（信封 A ) 内的钱数， y 是另一个信封（信封 s ) 内的钱数. 
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现在假定4中只有1元钱，显然 S 中含有 m 元，你应该换信封.当 A 内含有 
m n 元的时候， S 中或者含有 m ™- 1 元钱或 m "— 1 元钱.由于 7 V 具有几何分布列， 
我们有 

P(Y = m m+1 \X = m n ) P(Y = m m+1 ,X = m n ) P(AT = n + 1) 1 

P(F = = m n ) = P(Y = m m ~ 1 ,X = m n ) = P(N = n) =2 

这样我们有 

P(Y = m m - 1 |X = 饥 ")= 鲁， P(^ = m m+1 \X = m n ) = i, 

E [信封 S 中的钱数 |X = m "] = \m n - x + \m n+l = 

3 3 3 m 

(2 + m 2 )/(3 m ) > 1 的充要条件是 m 2 -3 m + 2 > 0 或 （m — l)(m — 2) > 0. 若 m > 2, 
则 

E [信封 S 中的钱数 = m ™] > m n . 

这样,为了获得最大的期望奖金，你应该转向信封 R 在这个例子中，由于对一切 : c 
的值， 

E[Y\X = x]>x, 

你选择直观地看，利用全期望定理，应该有结论 E[Y] > E [ X ], 然而，由于 X 和 
^具有相同的分布列，结论 E [ F ] > E[X] 不可能成立.实际上，我们有 

E[Y] = E[X] = oo , 

这个结论与 E[Y\X = a ;] > x,Vx 并不矛盾.当 E[Y}= E [ X ] = oo 的情况下，利用关 
系式 E[Y\X = x}>x 而转换信封并不能够改进平均奖金.从而解决了悖论问题. 

2.7 独立性 

现在讨论与随机变量相关的独立性的概念.这些概念与事件之间的相互独立 
性的概念是相同的（见第1章).只须引进由随机变量导出的相关的事件，再讨论这 
些事件的相互独立性. 

2.7.1 随机变量与事件的相互独立性 

随机变量与事件的独立性的概念与两个事件的相互独立性的概念是相同的.其 
基本思想是刻画条件的事件的发生与否不会对随机变量取值提供新的信息.更具体 
地说，随机变量 X 独立于事件 A 是指 


P(X = x^A) = P(X = rc)P(A) = p x (x)P(A), V x, 
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这个条件等 价于： 对任何 A 随机事件 {X = x } 与事件4的相互独立性.但是，由 
条件分布列的定义， 

所以，只要 P ( A ) > 0,随机变量 X 与事件 A 的独立性与下面的条件是等 价的： 

Px\a(x) =Px{x), 'ix. 

例 2.19 考虑独立地抛掷一枚均匀的硬币，共抛掷两次.令 X 是正面向上的次数， 
A 是正面出现的次数为偶数 . X 的（无条件）分布列为 

{ 1/4，若 a ; = 0， 

1/2，若 ; r = l ， 

1/4，若 a ; = 2， 

而 P ( A ) = 1/2. 由条件分布列的定义知 p x]A = P(X = a ; 和 A )/ P ( A ): 

{ 1/2，若 ； r = 0， 

0，若 a ： = 1， 

1/2，若 o ; = 2. 

显然，由于 PX 和 PX\A 不相同， X 和事件4是不独立的.若随机变量是这样定义 
的： 第一次抛掷得正面向上，则取值为0,若第一次抛掷得反面向上，则取值为 1. 
显然这样定义的随机变量从直观上看出与事件4是相互独立的.当然也可从独立 
性的定义直接验证. □ 

2.7.2 随机变量之间的相互独立性 

随机变量之间的相互独立性与随机变量和随机事件的相互独立性的概念是完 
全相同的.随机变量 X 和 F 称为相 互独立 的随机变量，若它们满足 


Px,v{x,y) =p x {x)p Y (y), yx,y. 

这等价于对于任意 a : 和 y ， 随机事件 X = a : 和 F = y 相互独立.最后，由公式 
Px,y(x,y) = Px\y(x\y)p Y (y) 可知随机变量 X 和 Y 的相互独立性的条件等价于 

Px\y{x\y) = px(x), Va ; 和一切满足 p y ( y ) > 0的 j /. 

直观上， Y 和 X 的独立性意味着 F 的取值不会提供 X 取值的信息. 
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在给定事件 4 的条件下 (P(^l) 必须大于 0! ) 也可以定义两个随机变量的条 
件独立性.在给定事件4的条件下，所有的事件的概率都换成关于条件4的条件 
概率.例如，我们称随机变量 X 和 F 是条件独立的，如果它们满足 

P(X = x,Y = y\A) = P(X = x\A)P(Y = y\A), Va; 和 y, 

或者利用本章的记号 

Px , y \ a ( x , v ) = Vx \ a { x ) py \ a { v ), Va ; 和 y . 

这个结论与下式是等 价的： 

Px \ y , a ( x \ v ) = Px \ a ( x ), Vi 和 y ， 但 y 必须满足条件 p Y (y) > 0. 

在 1.5 节中曾经提到事件的条件独立性并不包含独立性，反之亦然.在随机变量的 
场合下情况也是如此.图 2.15 中的例子说明了这种情况. 



图 2.15 表中数据说明条件独立与独立并不等价表中的分布列说明 X 和 y 是相互不独立的. 
例如 

阳 H 1|1) = p(x = i|y = i ) = o ^ P(X = 1) = p x (i). 

另一方面，若将事件 A = 3} (图中阴影部分的试验结果之集合）作为条 

件事件，则随机变量 X 和 K 是条件独立的.我们有 



对于 y = 3 和 j / = 4 都成立 
设随机变量 X 和 F 相互独立，则 
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E [ XY ] = E [ X ] E [ y ], 

这个事实可从下面的一系列等式得到： 

E [ XY ] = ^ 2 J 2 x yp ^ y ^ y ) 

x y 

-EE xyp x ( x ) p Y ( y ) (根据独立性） 

a: y 

= ^Zxpx{x)'^2yp Y {y) 

x y 

= E [ X ] E [ Y }. 

完全类似的计算说明这样的 事实： 若 x 和 y 相互独立，则对任意函数 g 和/^，下 
式 成立： 

E [ 5 ( X )/ l ( y )]= E [ 5 ( X )] E [/ l ( F )]. 

事实上，当我们理解到这样的事实的时候，上述结论就是明显 的了： 由 X 和 y 的 
相互独立性可以蕴涵 g ( X ) 和 h { Y ) 的相互独立性.形式的验证，留作本章末尾的 
习题. 

现在考虑两个独立随机变量 x 和 y 的和 x + y , 我们希望求出 x + y 的方差. 
随机变量的方差具有如下的 特性： 随机变量加上一个常数以后，其方差保持不变.利 
用这个特点，我们考虑将随机变量进行平移,使得期望归0.令 X = X - E [ X],Y = 
n [ n 这样 

var(X + Y ) = var(X + Y ) 

= E[(X + Yf ] 

= E [ X 2 + 2 XY + Y 2 } 

= E [ X 2 } + 2 E [ XY ] + E [ Y 2 ] 

= var ( X ) + var ( y ) 

= var ( X ) + var ( F ). 

在上述一系列的等式的证明中，我们利用了 E [ XY ] = 0. 这是利用了独立随机变量 
的性质的结果（由于 x 和 f 分别是独立随机变量 X 和 y 的函数，所以它们也相 
互独立)，即 

E [ XY ] = E [ X ] E [ y ] = 0. 

总之，独立随机变量的和的方差等于它们的方差之和.与之对比，随机变量之和的 
期望等于随机变量期望的和，而不需要任何条件. 
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关于独立随机变量的性质的小结 

设在某一试验中， A 是一个事件，满足条件 P^4) > 0, 又设 X 和: K 是在同一 
个试验中的两个随机变量. 

•称 X 为相对于事件4独立，如果满足 

Px \ a { x ) =px{x ), 对一切 a : 成立， 

即对 一切； c ， 事件 {X =封与 A 相互独立. 

•称 X 和 F 为相互独立的随机变量，如果对一切可能的数对 ( x , j /), 事件 
{X =封和 {Y = 2/} 相互独立，或等价地 

Px,y( x ^v) = Px{x)py(v), 对一切 x ， j / 成立 • 

• 若 X 和 F 相互独立，则 

E [ XY ] = E [ X ] E [ y ], 

进一步地，对于任意函数0和 h , 随机变量 P ( X ) 和 h ( Y ) 也是相互独立的, 
并且 

E [ ff ( X )/ l ( F )]= E [ 5 ( X )] E ^( F )]. 

• 若 x 和 y 相互独立，则 

var(X + F) = var(X) + var(F). 


2.7.3 几个随机变量的相互独立性 

前面的关于随机变量相互独立的讨论可以很自然地推广到两个以上随机变量 
相互独立的 情况. 例如，我们称随机变量和 Z 是三个相互独立的随机变量， 
如果它们满足 

Px,Y,z{x,y,z) = px(x)py(y)pz(z), 对一切 x,y，z 成立 • 

设 X ， y ， Z 是三个相互独立的随机变量，则任何形如 f ( X ), g ( Y ), h ( Z ) 的三个 
随机变量也是相互独立的.相似地，任何两个随机变量3(义，7)和 HZ ) 也是相互 
独立的.但是形如 S ( X ， y ) 和 h ( Y , Z ) 是相互不独立的，因为它们都受公共的随机 
变量 r 的影响.若用互不干扰的试验结果来解释独立性，则上述这些性质在直观上 
是非常清楚的.但是形式的证明有些烦琐.幸运的是，直观和数学理论通常是一致 
的.这主要是,独立性的定义本身反映了对直观的解释. 





2.7 独立性 101 


2.7.4 若干个相互独立的随机变量的和的方差 

相互独立的随机变量的和出现在许多重要的场合.例如在测量问题中，为了减 
少测量误差，通常是把若干个独立的测量值的平均值作为目标物的测量值.在处理 
若干个相互独立的随机源的累计效果时，也会遇到随机变量和的方差问题.此处我 
们仅提供几个例子，后面的几章将会回到这个主题. 

在以下的例子中，我们将利用下面的重要 性质： 设 Xi ，…，为相互独立的 
随机变量序列，则 

var(Xi + …+ X n ) = var ( Xi ) + …+ var ( X „). 

这个结论可以通过反复应用两个独立随机变量之和的方差公式 var(X + y ) = 
var ( X ) + var ( y ) 而证得. 

例 2.20 (二项分布和泊松分布的方差）考虑独立地抛掷一枚均勻的硬币，共抛掷 
n 次，每次正面向上的概率为 p . 对每个 i ， 令&表示刻画第 i 次抛掷硬币的伯 
努利随机变量，即当第 i 次抛掷后正面向上 ，足 =1，否则不= 0. 这样 X = 
X 1+ X 2 + + 是二项随机变量.由于各次抛掷硬币是相互独立的，随机变量 

，…，是相互独立的，故可利用独立随机变量和的方差公式 


var(X) = y^var(Xj) = np(l - p ). 

i=l 

2-2 节已经指出，参数为 A 的泊松随机变量可以看作二项随机变量的极限 （二 
项随机变量的参数 n 和 p 满足 n — oo, p 0, 并且保持 np = A). 这样，对应 
地求二项分布的期望和方差的极限，可形式地得到泊松分布的期望和方差：= 
var(F) = A. 我们已经在例 2.7 中证明了公式 E [ Y ] = X . 现证公式 var(F) = A. 

E[r 2 ] = f ； ^e-^ 

fc=l 


A ( E [ y ] +1) 

A (入 +1)， 


由此得到 

var ( F ) = E [ F 2 ] - ( E [ F ]) 2 = A(A + 1) - A 2 = A . □ 

独立同分布的随机变量的加权和的均值和方差的公式是样本均值作为随机变 
量的期望的估计的理论基础.下面是一个典型的例子. 
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例 2.21 (样本均值的期望和方差）我们希望估计总统的支持率.为此，我们随机 
地选取 n 个选民，询问他们的看法.令足表示第 i 个被问的选民的 态度： 


^ _| l , 若第 i 个被问的选民支持总统， 

= \ o , 若第 i 个被问的选民不支持总统. 

我们假定 A ，… ，忍 为独立同分布的伯努利随机变量,其均值为 P ， 方差为 P (1_ P )_ 
此处我们将 p 认为选民支持总统的概率，并且将调査得到的平均反应&称为样本 


均值 


S n = 


Xi + . • . + X n 


由于^是&，…，忍的线性函数，我们有 


E [5„] = 卜 ㈤ )= = 


再利用随机变量 A ，…，的独立性，得到 


var(S„) = [ ^vax(Xi) = P ) . 

i=l 


s n 被认为是支持率 p 的一个很好的估计，这是因为它的期望刚好是？，而反映估计 
精度的方差当 n 增大的时候变得越来越小. □ 

注意，上例中即使；^不是伯努利随机变量，结论 

var(5 n ) = ^ 
n 

仍然成立，只要 Xi 之间相互独立，期望和方差与 i 无关.这样样本均值仍然是随机 
变量的公共期望的一个好的估计，当样本量 n 增大的时候，&的方差变得越来越 
小.在第5章讨论大数律的时候，我们将详细讨论样本均值的这个特性. 

例 2.22 (用模拟方法估计概率）在许多实际问题中，有时候计算一个事件的概率 
是十分困难的.然而我们可以用物理方法或计算机方法重复地进行试验，这些试验 
结果可以显示某事件是否发生.利用这种模拟方法可以以很髙的精度计算某事件的 
概率.我们可以独立地模拟试验 n 次，并且记录 n 次试验中事件 A 发生的次数 m ， 
用 m / n 去近似概率 P ( A ). 例如在抛掷硬币试验中，为计算概率 p = P (出现正面)， 
我们独立地抛掷 n 次，用比值（记录中出现正面的次数 / n ) 去逼近概率 p . 

为计算这种方法的精确度，考虑 n 个独立同分布的伯努利随机变量 Xi ,-- - , X „, 
其公共分布列为 


P ( A ), 若 A : = 1， 
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此处足 相当于第 i 次试验中事件 A 的示性变量，即当事件4发生的时候，足的 
取值为1，事件 A 不发生的时候，足的取值为 0. 而随机变量 

x = -^1 + — 1~ x n 
n 

的取值就是概率 P ( A ) 的估计值.由例 2.21 的结果知， X 的期望为 P (^), 方差为 
P^4)(l - P(A))/n •故 n 很大时， X 提供了 P ( A ) 的精确的估计. 口 


2.8 小结和讨论 

在概率模型中，试验结果是一些数值的时候，随机变量是一个很自然的工具. 
本章集中讨论离散随机变量 • 为离散随机变量建立了理论架构和引进了相应的工 
具. 

特别地，我们引入了一些基本概念，例如分布列、均值和方差.这些概念在不 
同程度上刻画了离散随机变量的概率特征.同时，我们指出，为了计算 F = g ( X ) 
的期望和方差，可以不用 F 的分布列，而只须利用 X 的分布列即可.特别地，当 g 
是一个线性函数 Y = aX + b 的时候， X 和 y 的期望和方差具有下列关系 

E [ y ] = aE [ X ] + b , var ( F ) = o 2 var ( X ). 


我们也讨论了若干具体的离散随机变量，并且导出了分布列、均值和方差，其 
结果如下. 


某些具体的离散随机变量的小结 
[ a , b ] 上的离散均匀分布 ( a ， 6 为整 数): 


Px(k) = 



若 k = a,a + 1 , •■- , b , 
其他， 


E[X] = var ( X ) = (^ ~ a)(^-a + 2) 

参数为 P 的伯努利随机变量 (刻画一次试验成功或失败的概率模型) 

= 1, 

k = 0, 

H x ] = V , var ( X ) = p(l - p ). 


Px(k) 
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参数为 P 和 n 的二项随机变量 (刻画 n 次独立重复的伯努利试验中成功次数的 
随机变量） 

Px(k) = _ PY 1 -' fc = 0, V . • ， n ， 

E [ X ] = np ^ var ( X ) = np(l - p ). 

参数为 p 的几何随机变量 (在独立同分布的伯努利试验序列中刻画直到第一次 
成功所需的试验次数的随机变量） 

px{k) = (1 -p) fc_1 p, k = 1,2,••-, 

= var ( X ) = i -^. 

参数为 A 的泊松随机变量 (当 n 很大,很小 ， A = np 时，用于逼近二项分布的 
随机变量 .） 

Px{k) = fc = 1 ， 2 , …’ 

E [ X ) = A , var ( X ) = A . 


我们也讨论了多元随机变量和它的联合分布列和条件分布列，以及与之相关的 
条件期望.条件分布列通常还是定义一个概率模型的起始点，它可以用于计算其他 
的概率值，例如边缘分布列或联合分布列或相应的期望值.特别地，当条件分布列 
Px\Y(x\y) 给定以后，有以下几种情形. 

( a ) x ， y 的联合分布列可由下式 计算： 

Px,Y{x,y) = PY{y)px\y{x\y)- 

这个结果可以推广到多于两个变量的情况， 例如： 

Px,Y : z{x,y,z) = pz(z)p Y \z(y\z)Px\Y,z( x \y^ Z )- 

这个公式与第 1 章中利用序贯树形图计算概率的方法类似. 

( b ) X 的边缘分布列可用下式 计算： 

Px(x) = ^PY{y)px\Y{x,y). 
y 

这个公式与第 1 章中的全概率公式类似. 

( c ) ( b ) 中的全概率公式可以推广成为全期望公式，以计算随机变量 X 的 期望： 

E[x} = Y,py(ynx\Y = y}. 
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类似于事件的相互独立性，我们也引进了独立随机变量的概念.特别地，我们 
引进了独立随机变量 的和： 

X = X x + ■■■+ X n . 

我们证明了 

E [ X ] = E [ Xi ] + …+ E [ X „], var [ X ] = var [ Xi ] + • ■ • + var [ X „]. 

上述公式中，关于随机变量和的期望的公式，并不要求随机变量之间的独立性，但 
是关于随机变量的和的方差的公式却要求随机变量之间的独立性. 

在第3章中，我们将本章中的概念和方法推广到一般的随机变量的情况.随机 
变量的概念是概率论中最基本的概念. 

习 题 

2.2 节分布列 

1. MIT 足球队在周末计划有两场 比赛. 第一场比赛不败的概率为0.4,第二场比赛不败的 
概率为 0.7, 两场比赛的输赢是相互独立的.如果在一场比赛中不败，那么他们在比赛中 
贏球或平局的概率是相等的，并且与另一场比赛的结果是相互独立的. MIT 足球队在一 
场比赛中的得分情况是这 样的： 赢球得2分，平局得1分，输球得0分.写出这个周末 
MIT 足球队得到的总分的分布列. 

2. 你参加了一个有500人的晚会，有人与你生日相同的概率有多大？分别利用精确解和泊 
松分布逼近的方法计算这个概率（为了计算简单，排除2月29日这种特殊的情况). 

3- 菲切尔和斯帕克两人下国际象棋，按规定第一个贏得一盘者为比赛的胜者.若两人连续 
10盘和局，则宣称两人言和.在每盘棋中菲切尔赢棋的概率为0.4,输棋的概率为 0.3, 和 
棋的概率为0.3,每盘棋之间的输贏是相互独立的. 

( a ) 菲切尔贏得比赛的概率有多大？ 

( b ) 两人下棋的盘数的分布列是什么？ 

4- 一个因特网服务商备有50个调制解调器以供1000个用户 使用. 估计每一给定时刻，每 
个用户使用因特网的概率为 0.01, 而且使用者之间相互独立. 

( a ) 在给定的时刻，使用着的调制解调器数的分布列是什么？ 

( b ) 重复 （ a ) 题,利用泊松分布列逼近使用网络连接的用户数的分布列. 

(c) 计算在某一时刻使用人数超过调制解调数的 概率. （利用精确分布列和 （ b) 中提供的 
泊松逼近分布列分别进行计算 .） 

5_在互连网中一个信息包通信系统的组 成是： 一个临时储存信息包的缓冲器，这个缓冲器用 
于储存信息源送来的信 息包； 一条通信线路，从缓冲器获取信息包，将它们传送给接收者. 
系统将工作时间划分为两个时段，在第一时段，系统将信息源送来的信息包放在缓冲器 
内.信息源送来的信息包的个数是随机的，其分布列为泊松分布列，分布的参数为 A . 缓冲 
器能够储存的信息包最大个数为6,若信息包送来时，缓冲器已经存满的时候，那些信息 
包将被丢弃.在第二时段，将缓冲器中的信息包传送出去，传送出 c 个信息包 (0 < c < 6, 
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c 是一个给定的常数.当缓冲器中的信息包的个数小于 c 的时候，就将缓冲器中的信息包 
全部传送出去). 

( a ) 假定在第一时段开始时，缓冲器中的信息包的个数为 0. 分别写出第一时段结束时 
和第二时段结束时缓冲器中的信息包的个数的分布列. 


( b ) 求在第一时段有信息包被缓冲器丢弃的概率. 

6. 凯尔特人队和湖人队在季后赛中相遇，双方要打 n 场比赛，其中 n 为奇数.凯尔特人队 
每贏一场球的概率为 P ， 而各次贏球是相互独立的. 

( a ) 求 P 的范围，使得对于凯尔特人队来说 ， n = 5比 n = 3合算. 

( b ) 将⑷进行推广，即对于任何 fc 的值,找出 p 的范围使得 n = 2 fc + l 比 n = 2 fc — 1 
对凯尔特人队更合算. 


7. 你刚租了一所大房子，房产经纪人给你5把钥匙,可以打开5扇门 . 5把钥匙外形完全一 
样.为了打开大门，你只能一把一把地试. 

( a ) 找出你打开大门所需的试验钥匙次数的分布列.在下面不同假设之下分别算出分布 
列 ： （1) 当你试开失败以后，在钥匙上做一个记号，这样下次试开的时候不会重试这 
把钥匙.⑺每次试开失败以后，从5把钥匙中随机地选一把再试. 

( b ) 重复 （ a ) 的情形，这次经纪人给你10把钥匙，其中每一扇门有两把完全相同的钥匙. 

8. 二项分布列的递推计算公式 .设 X 是一个二项随机变量，相应的参数为 n 和 p . 证明其 
分布列可以从 P x (0) = ( l - p ) n 开始，利用下面的递推公式 计算： 

px{k + l) = - -px(fe), fc = 0 ， 1， ...，n — 1. 

9. 二项分布列的形式 .设 X 是一个二项随机变量，相应的参数为 n 和 p . 令 k * 是小于或 
等于 ( n + l ) p 的最大整数.证明分布列 px ⑻在[0, fc *] 的范围内相对于 fc 是非降的，而 
在的范围内单调递降. 

10. 泊松分布列的形式 •设 X 是一个泊松随机变量，相应的参数为 A . 证明分布列 px ( k ) 
当 fc 在区间 [0， A ] 的整数点上变化时是单调上升的，而在 （ A , oo ) 中的整数点上变化 
时是单调下降的. 

11. * 火柴问题-巴拿赫 ( Banach ) 的吸烟习惯引出的问题. 一位爱吸烟的数学家的左右口袋 

各放一盒 火柴. 每次吸烟时,他随机地从左右口袋掏出一盒火柴点香烟（从左右两个口袋 
中掏火柴盒的概率分别为 1/2), 而各次掏火柴的习惯是相互独立的.假定开始的时候，两 
个口袋的火柴盒里的火柴数目是相等的，都等于 n . 当这位数学家从口袋里掏出来的火柴 
盒是一个空盒时，另一个口袋的火柴盒中的火柴根数的分布列是什么？现在将上述问题 
稍作推广，设数学家在掏火柴盒的时候，从左口袋掏火柴盒的概率为 p ， 从右口袋掏的概 
率为1 - p ， 那么相应的结论是什么？ 

解令 X 是一个火柴盒为空的时候另一个火柴盒中火柴的根数.对于 fc = 0,1， ... ， n , 
记 L k ( R k ) 分别为这样的随机 事件： 当第一次发现一个火柴盒为空火柴盒的时候，这个 
火柴盒是左（右）口袋里的火柴盒，并且右（左）火柴盒里剩下 k 根火柴 . X 的分布列为 


px(k) = P ( Lfc ) + P ( i ? fc ), fc = 0,1, ••- ,n. 

我们将选左口袋看成一次成功，选右口袋看成一次失败.则 Lfc 是这样的 事件： 前 2 n - fc 
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P ([ fc ) : 


利用对称性， P ( Lk ) = P ( i ? fe ), 可得 


，次，在 2n - fc + 1次试验的时候也是成功.这样 
f 2n — k\ 




0 , 1 , 


px ( k ) = P ( L k )+ P ( R k ) = 


fc )(r fc ’ 


fc = 0,1， . 


对于稍作推广的问题，即从左口袋取火柴的概率为 P ， 从右口袋取火柴的概率为 1- P , 
利用相似的推论得到 


fc = 0,1，…， n ， 


这样 


p ⑹ +p ㈤= ( 2 : fc ) (p™ +i (i- P r- fc + P "- fe (i- P r +i ), 


Px[k) 

\ 

A: = 0,1, ••- , n. 

12.* 泊松逼近公式的证明.考虑二项随机变量的分布列，其相应的参数为 n 和 p . 证明当 


n oo, p — > 0, 


并且 np 保持为固定的常数 A 的时候,这个二项分布列趋于参数为 A 的泊松分布列. 

解利用关系式 

n(n - 1) ■ • • (n - fc + 1) f _ X\ n ~ k 

n k fc ! \ n ) 


固定 fc ， 令 n — oo , 我们得到 
n-k+j , 


Hr- Hy 


其中：/ = 1, …， A : ■这样，对每个 fc ， 当 n — oo 的时候， 

Px ( k ) ' 


4 
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2.3 节随机变量的函数 

13. 一对夫妇有5个孩子，他们又另外收养了 2个女孩，组成一个家庭.他们亲生的5个孩 
子中，每个孩子为男孩或女孩均是1/2的概率，彼此相互独立.写出这个家庭中女孩数的 
分布列. 

14. 设 X 是一个随机变量，取值于集合 {0, 1， ... ，9}，取每个值的概率为 1/10. 

( a ) 求出 y = X mod (3) 的分布列. 

( b ) 求出 K = 5 mod (X + 1) 的分布列. 

15. 设 K 是一个随机变量，取值于 [- 71 , n ] 中的整数，取每个值的概率为 l /(2 n + l ). 求 
F = ln ( X ) 的分布列，其中 AT = a l K l ， 而 a 是一个正数. 

2.4 节期望、均值和方差 


16.设 X 是一个随机变量，其分布列为 


Px{x ) = 



若 a ; = -3,-2,-1,0,1,2, 3, 
其他. 


( a ) 求出 a 和 E [ X ], 

( b ) 随机变量 Z ={ X - E [ X }) 2 的分布列是什么？ 

( c ) 利用 （ b ) 的结果，计算 X 的方差. 

⑷利用公式 var ( X ) = (^ - E [ X ]) 2 Px 0 r )， 计算 X 的方差. 

17. 可将一个城市的温度看成一个随机变量，其均值为 10° C ， 标准差也是 10° C . 如果某一天 
的温度在均值的一个标准差的范围内变化，则称这一天的温度是正常的.现在如果温度 
用。 F 来表示，正常天气的温度范围应该怎么表达？ 

1 S •设 a 和&是两个正整数，满足条件 “ b . 令 X 是一个随机变量，以相等的概率取 
2\ a ^ i ^ b . 求 X 的期望和方差. 

19. 10个盒子中的某一个放有奖品.为确定起见，将这10个盒子编上号，由1号到10号.用 
问问题和回答问题的方法可以逐步将奖品所在的位置确定下来.下面是两种问问题的方 
法： 

( a ) 枚举法.用这样的问 题问： “奖品是不是在盒子 fc 中？” 

( b ) 二 分法. 用排除法把将近一半的盒子淘汰，例如可用这样的问题进行排 除:“ 奖品所 
在的盒子的号码是不是小于或等于 fc ?” 

解分别在两种方法之下计算问问题次数的期望值. 

( a ) 不妨设问题是这样问 的：第 i 个问题是“奖品是不是在盒子 i 中？”，而奖品是以 
1/10的概率在盒子 i 中.故问 i 个问题才猜中奖品的概率为 1/10. 这样平均猜中 
奖品的次数为 

^ E i = ^- 55 = 5 - 5 - 

( b ) 假定第1个问 题是: “奖品所在的盒子 fc 是否满足 fc 矣5?”若回答为“是”，则第二 
个问题为“奖品所在的盒子 fc 是否满足 k < 2? w 若回答为“是”，则奖品就在“1， 
2 ” 之内.再问一个 问题: “奖品所在的盒子 fc 是否满足就可以确定这个奖 
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品了.这样,若奖品在盒子“1”或 “2” 内，只需问3个问题即可确定奖品的位置.利 
用这种方法可知，一共有6种位置，需要问三个问題才能确定其位置，另外有4种 
位置，需要问4个问题才能确定下来.而奖品在每一种位置的概率为 1/10. 这样要 
确定奖品的位置，需要问问题的平均个数为 


20. 巧克力工厂开展了一个宣传活动，在一些巧克力糖中放了金奖券，凭这个奖券可以到工厂 
参观并可随意品尝各种巧克力.假定一包巧克力糖内含金奖券的概率为 p . 求出为拿到 
金奖券所需要购买的巧克力糖的包数的均值和方差. 

21. 圣彼得堡悖论 • 抛掷一枚均匀的硬币，直到出现反面向上为止.假定每次抛掷是独立的. 
若你抛掷了 n 次，你可以获得 2" 元.你得到的钱数的期望值是多少？你愿意付多少钱玩 
这个游戏呢？ 

22. 有两枚硬币，将它们同时抛掷的时候，其中第一枚正面向上的概率为 p ， 第二枚正面向上 
的概率为 g . 连续地同时抛掷这两枚硬币，直到出现一枚向上，另一枚向下为止.假定所 
有的抛掷是相互独立的. 

( a ) 写出抛掷次数的分布列、期望值和 方差. 

( b ) 最后一次抛掷得到第一枚硬币正面向上的概率有多大？ 

23. ( a ) 连续抛掷一枚均匀的硬币，直到连续出现两次正面向上或反面向上为止.写出抛掷 

次数的分布列、期望值和方差. 

( b ) 现在假定连续抛掷一枚均勻的硬币，直到出现正面向上，紧接着出现反面向上为止. 
写出抛掷次数的分布列、期望值和方差. 

2.5 节多个随机变量的联合分布列 

24. 某股票经纪人买了甲股票200股，乙股票100股.令 X 和 y 分别为甲、乙两个股票在 
某一时期的价格变动.假定 x 和 y 的联合分布列为二元集合 

-2 ^ x < 4, 


中的整数格点上的均匀分布. 

( a ) 写出 X 和 y 的边缘分布列和均值. 

( b ) 写出经纪人的平均利润. 

25. 某一班上有 n 个学生参加一个测验，测验共有 m 道 题目. 假定学生 i 上交了前道题 
目的答案 ， i = !,■■■ , n . 

( a ) 教师随机地从这些答案中选出一份答案，记作 /， J ， 其中 J 为学生的号码 e 
{1，…， n })， J 为题目的号码.假定所有的答案是以相等的可能性被选中的.计 
算 J 和 •/ 的联合分布列和边缘分布列. 

( b ) 假定学生 i 对道题目能够正确回答的概率为同时假定一道题目回答正确可 
以得 a 分，否则得&分.计算学生 i 所得的总分的期望值. 

26. 几个随机变量的最小值的分 布列. 你的髙尔夫成绩是一个随机变量，其得分的分布是 
{101，... ，110} 上的均匀分布.为了改进成绩，你决定将3天的最小分数作为你的分数 
X ，即 X 等于 mm { X l , X 2 , X 3 }, 其中 X u i = 1,2, 3表示你三天的分数. 
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( a ) 计算 X 的分 布列. 

( b ) 若以 X 作为你的得分，你的平均得分比原来的以一天的成绩作为记分的平均得分 
改进了多少？ 

多项分布.设有一个骰子，具有 r 条边，标记为将骰子连续转动 n 次.假定在 
每次转动的时候第 i 面出现的概率为仍，并且各次转动是相互独立的.记为 n 次转 
动中，第 i 面出现的次数. 

( a ) 写出 Xi ， … ， X r 的联合分布列，… ,k r ). 

( b ) 写出 Xi 的期望与方差. 

( c ) 求 E [ X 而] 

解 

( a ) 设关于 n 次转动后得到一个转动结果序列（试验结果)，这个序列中第 i 面出现 
次 ， i = l ， 这个转动结果序列出现的概率为#以如，…， fc r 为特 
征的试验结果形成一个集合（事件)，这个事件中的试验结果的个数为多项系数（见 
1.6 节） 

f n \ _ n ! 

\k!, ■■- ,k r ) = k^.-'-KV 

这样， 


其中 > 0 ,i = 1 ， … ,r,ki + ■ ■ ■ + k r = n, 在其他情况 px 1 ，■- ,x r (ki, ■■■ ,k r ) =0. 

( b ) 随机变 量不 是一个二项随机变量，相应的参数为 n 和 Pi . 这样 E ^] = n Pi , 
var(Xi) = npi(l - p t ). 

(c) 设 i / j ， 记或 Y jtk ) 为伯努利随机变量，当第次转动骰子的时候出现 i (或 
3) 就取值1，否则取值 0. 注意， Yi ^ = 0以及对于 Z / fc ， 和~相互独立 
(因此 Wi , kY u ]= p iPj ), 我们得到 

e [ x 而] = E [( y ia + ••• + + ••• + [>)] 

= n ( n - 
= n{n - \) piPj . 


28.* 智力测验问题.智力测验答题的规则是这样确定的.一共有 n 个问题，你可以选择任意 
的回答次序.对于问题 i ， 你正确回答的概率为 Pi . 若你回答正确，就可以拿到 奖金％ ，并 
且有权利选择下一个问题回答.你第一次回答错误后，你不但得不到这个问题的奖金，而 
且失去了继续回答问题的权利，但可以保留以前得到的奖金总额.为了达到最大的期望总 
奖金，证明你应该按 PiVi / il - pi ) 的非增的次序选择你所要回答的问题，即 PiVi / il - pi ) 
大的问题优先回答. 

解将问题{1，2,…， n } 的回答顺序抽象化成为这些问题的一个排列 L = ( i 1 , i 2 ,.-- , i n ). 
首先回答的问题是 A ，其次是 .... 所谓最优排列是指按最优排列顺序回答问题能获 
得最大的期望总奖金.记 

1 一趴 
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为问题 i 的权值.我们称排列 L = ( h , i 2 , ■■- , in ) 中相邻的“问题对” ( i fc ，4 +1 ) 为“逆序 
对”，如它们满足条件 


w ( ik ) < w ( i k+1 ). 

为了消除这个逆序对，只须将排列 L 中的4与 4 +1 的位置对调，即变成 L ' = , 

4-1, 4+1,4, 4 + 2 ,•• - , in ). 对于 L '，(4+1,4) 就不是逆序对了.现在我们分别计算 L 
和 L ' 的期望总 奖金： 

E [ L 的总奖金] = pi 1 v il + p il pi 2 vi 2 + - - - + pi x pi 2 - • 

E [ Z / 的总奖金] = p il v il + ■■■ +Pi 1 ---Pi k _ 1 v ik _ 1 + p H ■■■Pi k ^ 1 Pi k+1 v ik+1 

+ Ph ■ ■ ■ Pi k -xPi k +lPik V ik +Pil-'-Pik+2 V ik+2 + • • • + Ph • . • Pi„• 


将两者比较得 


E [ L ' 的总奖金] — E [ L 的总奖金] = ( w ^ k +^- w ^ k ))^ - ■■Pi k _ 1 (l-Pi k )(l~Pi k+1 )) > 0 

由此可以看出，对于有逆序对的排列 I ，不可能达到最高的期望总奖金. 

现在，最优排列只能在没有逆序对的排列中找.而没有逆序对的排列就是按权 值忉⑷ 
非增的排列.我们利用下面的两个 事实： 

( a ) 任意两个按权值非增的不同排列 L 和 L '， 可以通过一系列的改变问题对 ( i k , ik + i ) 
的顺序由 L 变成 L '， 而每次改变顺序的两个问题 (4,4+ i ) 的权值是相同的，即 
w ( ik ) = w ( i k + i )- 

( b ) 由于改变顺序的两个问题的权值相同，由前面的计算知，改变顺序前后的两个排列 
的总奖金的期望值是相同的. 

由以上两点可知，只要排列是按权值 w ( i ) 非增的，这个排列就是最优的排列，其期望总 
奖金达到最大. 

29.* 容斥恒等式.设4，^，…，4„为71个事件•记5 2 ={(纪纟 2 )|1< 
il < ^2彡 》 l}， 更一'般地，令 Sm 为满足条件重指标 
*!,••• ,im 的集合.证明下列容斥恒等式 成立： 

P ( u ^ =1 A fc ) = J 2 P (^) - E P « n 4) 

WSi ( il , i 2) eS 2 

+ X] n Ai 2 n Aj 3 ) — + (—i) n-1 p(rifc = iAfc). 

C«i.i2.i3)€S 3 

提示：设足 为 事件表 的示性函数，即当事件 A 发生的时候 ，不 取值为1,当事件 ▲ 
不发生的时候， Xi 取值为 a 将随机变量1 - (1 - 不)(1 - X 2 ) • • • (1 - x n ) 与相关的事 
件联系起来. 

解我们将事件 S = yj n k = 1 A k 与随机变量不 ，…， 联系起来.事件 F 发生等价于 
所有的变量 X 1 ,---, x n 取值为0,或等价于条件 Y = ( l - X 1 )( l - X 2 )---( 1 - X n ) = l . 
由于 y 只能取值0或1,我们有 


P ( B C ) = P(y = 1) = E [ F ], 
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这样 


P(S) = 1 - E[(l - X0(1 - X 2 ) … （1 — X„)] 


E[Xi + _ • • + X„] - E 




(-1)"-^%’ ■.又 ]. 


注意， Xi 与山的下列种种关系式 
E[X t ] = P(A), 

ElXij^X^Xig] = P(v4i x n Ai 2 n -Ai 3 ), 


E[X il X i2 ] = P{A il nA i2 ), 
E[X 1 X 2 ---X n ]=P(nl =1 A k ), 


就可以得到容斥恒等式. 

30.* 埃温的数据库中有71个记录.由于软件的故障，地址和人员的对应关系处于完全随机的 
状态.埃温给每位朋友送一张生日卡，但是地址完全乱了.在这种情况下，至少有一位朋 
友得到他本人的卡的概率有多大？ 提示： 利用容斥恒等式. 

解 记 Afc 为第 A : 张卡送到正确的地址.我们有下列一系列公式 


P ⑹ =-= 


( n -1)! 

n\ ’ 


(» - 2)! 
n ! ’ 


P ( A , n ^ n ^) = 


等等，最后还有 


Pdi^U) = 


将这些结果代入容斥恒等式 

P(U^ =1 A0 = P(Ai) - E P(4 n 4) 


E n A h n A i3 ) - ■■■ + (-lr^Pin^A,). 

(h^2^3)^^ 3 


得到 


P( U fc) = ㈡ ^ -㈡ + ㈡ # + (-^-i 


=1 ~2! + 3! _ 


(-ir 




2.6 节条件 

31. 独立地抛掷一个6面体，共4次.令 X 为抛掷得到1点的次数， y 为2点的次数 . X 和 
y 的联合分布列是什么？ 
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32. D . 伯努利的共同生活问题.设有 m 对夫妻共同生活着.假定若干年以后每个人活着的 
概率为 P , 并且彼此相互独立.记 A 为若干年后活着的人数， S 为若干年后夫妻都活着的 
对数.对任何 a , 求 E [5|,4 = a ], 

33. * 独立地抛掷一枚硬币若干次.每次抛掷的时候硬币正面向上的概率为 p . 我们假定，当 

连续出现两次正面向上或连续出现两次反面向上的时候，抛掷就停止.写出抛掷次数的 
期望值. 

解一种办法是直接计算 X 的分布列，其中 X 就是抛掷硬币的次数.然后再计算 X 
的期望值. 然而， 由于硬币是非均匀的，计算 X 的分布列有一些麻烦.我们利用全期望 
公式并适当地分割样本空间的方法进行计算.记 H k (M T k ) 表示第 fc 次抛掷出现正面 
(或反面）的事件.记 g = 1 - p 表示抛掷硬币出现反面的概率.由于讯和形成样本 
空间的一个分割且 P ( ffi ) = p , P ( T 1 ) = q , 利用全期望定理得 

E [ X ]= pE [ X \ H 1 }+ qE [ X \ T 1 }. 


再次利用全期望定理，得到 

E [ X \ H x ] = P E [ X \ H 1 nH 2 } + qE [ X \ H 1 nT 2 ] =2 p + q(l + E [ X | Ti ]), 

此处我们利用了两个公式，其中一个公式是 

E [ X \ H 1 r \ H 2 ] = 2 

这是因为两次出现正面向上以后应该停止抛掷.另一个公式是 
E [ X \ H 1 nT 2 ] = l + E [ X \ T 1 ], 

这是因为，若抛掷没有结束，为了结束抛掷所需要抛掷硬币的平均次数只依赖于最后一 
次的抛掷的结果.相似的分析可得 


E [ X | T 1 ] = 2 9 + p(l + E [ X | i / 1 ]), 
利用所得到的两个关系式和 p + q = l , 可解得 


E[X|Ti] : 
E[X|i?i] : 


2+ p 2 

1 -pq 

2 + g 2 


这样 

利用等式 P + g = l , 得到 




酬=薄 

当 p = g = 1/2时， E [ X ] = 3. 也可以证明2彡 E [ X ] ^ 3对一切 p 成立. 
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34.* 一个蜘蛛在一条直线上追苍蝇.每一秒钟，苍蝇以相等的概率 p 向左或向右移动一步, 
以概率 l _2 p 在原处不动.而蜘蛛每一秒钟总是向苍蝇的方向移动一步.在开始的时候， 
苍蝇与蜘蛛相距 D 步.而 D 是一个取值为正整数的随机变量， D 的分布列为已知.如 
果蜘蛛与苍蝇的位置相重合，苍蝇就被捉住.现在的问题是苍姆被蜘蛛捉住的期望时间 
是什么？ 

解记 r 为蜘蛛捉住苍蝇的时刻.定义 
开始的时候蜘蛛和苍蝇的距离为 d 步， 

B d ' 开始一秒后蜘蛛和苍蝇的距离为 d 步. 

显然和都是随机事件.我们的步骤是首先利用（条件的）全期望定理计算 
E [ r | A !], 然后计算 E [ r | A 2 ], 相似序贯地计算 E [ T \ A d ], 最后我们利用无条件的全期望 
定理计算 E [ T ], 

我们有 

A d = ( A d n B d ) u { A d n Bd - i ) U ( A d n B d _ 2 ), 若 d > l . 

上式说明这样的一个 事实： 开始的时候，苍蝇与蜘蛛距离为 d,d > 1，那么1秒钟后它 
们的距离为 d ( 如果苍蝇离开蜘蛛）或 d -1 ( 如果苍蝇保持不动）或 d -2 (如果 
苍蝇 向蜘蛛 方向移动）.当苍蝇与蜘蛛距离为1的时候， 

Ai = ( AinBi ) U ( AinBo ). 

利用全期望定理，我们得到 

E [ T \ A d ] = P ( S d |^ d ) E [ T |^ d nS d ] 

+ P ( B d - 1 \ A d ) E [ T \ A d nB d - 1 ] 

+ P ( S d _ 2 |^4 d ) E [ T | v 4 d n Bd - 2 ], 若 d > 1 ， 

和 

E [ T | Ai ] = P ( B 1 |^ 1 ) E [ T | A 1 nSi ] + P ( B 0 |^ i ) E [ T|Ain B 0 ], 若 d = 1. 

根据问题中提供的数据，我们有 

P ( B 1 \ A 1 ) = 2 p , P ( B 0 \ A 1 ) = l -2 p , 

E [ T \ A ! nfii ] = 1 + E [ T | Ai ], E [ T|Ai n S 0 ] = 1, 

因此利用这些数据，可以得到 

E [ T |^!] = 2 p(l + E [ r | Ax ]) + (1 — 2 P ), 

或 

奪 1 j = 

将这些数据应用到 d = 2 的情况，得到 


E[T|A 2 ] = pE[T\A 2 n B 2 ] + (1- 2p)E[T\A 2 nB 1 ]+ pE[T\A 2 nB 0 ]. 
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同时我们有 

E [ T \ A 2 n So ] = l , 

E [ T \ A 2 nB 1 ] = l + E [ T \ A 1 ], 

E [ T \ A 2 nB 2 ] = l + E [ T \ A 2 }, 

将这些量代入 E[T\A 2 ] 的表达式中，得到 

E [ T \ A 2 ] = p(l + E [ T \ A 2 }) + (1 - 2 p)(l + ElTI ^ D+p 
= P (1 + E [ T \ A 2 ]) + (1 - 2 P ) (1 + Y ^)+ P - 

上式经过整理得到 

奪2]=占_ 

对于一般的 d , 我们可以得到 

E [ T \ A d ]= p { l + E [ T |> l d ]) + (1- 2 p )( l + E [ T | J 4 d _ 1 ])+ p(l + E [ T \ A d . 2 }). 

由于 EFMi ] 和 E [ T \ A 2 ] 已经求得，利用上式可以递推地将一切 E [ T | A d ] 求得.最后, 
给定 D 的分布列，利用全期望公式可以求得 T 的期 望值： 

E [ T ] = J 2 Md ) E [ T \ A d ]. 

d 

35.* 利用单个随机变量的函数的期望值规则验证下面的期望值 规则： 

E[g(X, y)] = ^2'^2g(x i y)p x ,Y(x,y). 

怎 y 

然后再将所得到的期望值规则应用到线性函数的特殊情况，得到公式 
E[aX + bY] = oE [ X ] + 6 E [ y ], 

其中 a 和6是常数. 

解我们利用全期望定理将问题归结为单个随机变量的函数的期望 规则： 

E [ ff ( X , y )] = ^2p Y (y)E[g(X,Y)\Y = y} 
y 

= J 2 py ( v ) E [9( X , y)\Y = y ] 
y 

=^2 PY ^ ^2 y ) Px \ v { x \ y ) 
y x 

= ，咖足咖办 

y 工 

注意，在上式的第 3 个等式用到了关于单个随机变量 X 的函数 g(X,y) 的期望值规则. 
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对于线性函数，由期望值规则得到 - 

E[aX + bY ] = ^2 53 ( ox + b 2 /) Px，y ( a ：, 2 /) 

a; y 

= a'Y^x'Y^Px.Yix^) + b'^2,y'^2px,Y{x,y) 

^ y y ^ 

=a^xpxjx) + by^ j yp Y (y) 

X y 

= oE[X]+6E[F]. 

36. * 条件分布列的乘法规则. 设为随机变量. 

( a ) 证明 

px,Y,z(x,y,z) = px{x)p Y \x(y\x)p Z \x,Y{z\x,y). 

( b ) 将此公式解释成 1.3 节的乘法规则的特殊情况. 

( c ) 将乘法规则推广到多个随机变量的情况. 

解 

( a ) 我们有 

px,y,z{x,y,z) = P(X = x,Y = y,Z = z) 

= P{X = x)P(y = y,Z = z\X = x) 

=P(X = cc)P(y = y\X = x)P(Z = z\X = x,Y = y) 

=Px{x)p Y \x{y\x)pz\x,Y{z\x,y). 

( b ) 将公式写成 

P(X = x,Y = y,Z = z)= P(X = a;)P(y = y\X = x)P(Z = z\X = x,Y = y) 

的形式，化成了 1.3 节中的乘法规则. 

( c ) 推广的形式是 

风， … ,x n (xi, ■■- ,X n ) 

=Px 1 (xi)px 2 \x 1 (* 2 |xi) ■•■Px n |x 1 ,-,x„_ 1 (a ： n|a ： i, •■- ,x n -x). 

37. * 泊松随机变量的分解. 传送器发出的信号是一个 0-1 信号.发1的概率为 p , 发0的概 

率为 1- P ， 并且和以前所发的信号独立.现在假定在一定时间内发出信号的个数为泊 
松随机变量，其参数为 A . 证明在同一段时间内发出1的个数也是泊松随机变量，其参 
数为 pA . 

解 设 x 和 y 分别为同一段时间内发出的信号1和0的个数.那么 z = x + y 就 
是这一段时间内发出信号的个数.利用条件概率公式，我们有 

P(X = n,Y = m) = P(X = n,Y = m\Z = n + m)P(Z = n + m) 



= e ~ Ap ( Ap) n e _ A (1 - p ) ( J \( l _ P )) ; 
n ! ml 



因此 
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P{X = n )= J 2 P (久 = n,Y = m ) 

= e _ Ap ( 如广 c _ A(1 _ p ) f (A(l-p)r 
n! m] 

= e ~ Ap ( Ap) n c - A ( i - p ) c A ( i - p ) 
n \ 

e -^(\ p) n 
~ ~~ n \~' 

这说明 X 是一个泊松随机变量，参数为 A P . 

2.7 节独立性 

38. 爱丽丝在上班路上要通过 4 个路口，每一个路口以相等的概率出现红灯或绿灯，而且各 
个路口的红绿灯的出现是相互独立的. 

( a ) 写出爱丽丝所遇到的红灯数目的分布列、均值和方差. 

( b ) 假定遇到每个红灯会等待2分钟，计算爱丽丝在上班路上花费时间的方差. 

39- 每天早上，饥饿的哈雷总要吃几个鸡蛋.假定哈雷每天吃鸡蛋的个数是一个随机变量, 
吃掉的鸡蛋个数是1到6个不等，而且在{1，2, 3, 4,5, 6} 上均匀分布.令 X 为哈雷10 
天所吃掉的鸡蛋数.求 X 的均值和方差. 

40- 一个教授因为他的任意评分办法而知名.对于每篇论文，他的评分是在集合4-， S +， 

-， C +} 上等概率地分布，而对各篇论文的评分是相互独立的.为了使得每种评分 
等级至少对应一篇论文，你大概需要交多少篇论文？ 

41 - 你开车上班，一年工作50周，每周工作5天.每天你得到交通罚单的概率为 p = 0.02, 
而且各天之间是否得到罚单是相互独立的.记 X 为你一年中得到的罚单数. 

( a ) 你得到的罚单数刚好等于 E [ X ] 的概率有多大？ 

( b ) 利用泊松分布近似地计算 （ a ) 中的概率. 

( c ) 假定每张罚单的罚款额分为10元、 2 0元和50元，相应的概率分别为0.5, 0.3, 0.2, 
并且各张罚单的罚款额之间是相互独立的.求出一年中你的交通罚款总额的均值 
和方差. 

( d ) 假定你不知道 p 的值,但是在一年中你得到5张罚单.你用 

Jo =ao2 

估计 p 的值.假定々与 p 的差是在样本平均的5倍标准差之内， p 的变化范围是 
什么？ 

42 - 计算问题.此处讨论的问题是计算单位正方形中的子集 S 的面积的方法.我们利用单 
位正方形上服从均匀分布的一串随机的点列.如果第 j 个点是在集合5■中，令；^ = 1, 
否则为 0. 现在设 Xi ,... 是这样生成的随机变量序列，记 ’ 

^ _ Xi +---+ X „ 
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( a ) 证明 E [5„] 等于子集合 S 的面积，而 ■(&) 当 n 无限增加时趋于 0. 

( b ) 证明为了计算的值，我们可以利用和的值，而并不依赖于以前的 
Xi , ■■- , X n - i . 写出一个公式. 

( c ) 利用计算机的随机数发生器写一个计算机程序，产生数列 S n , n = 1 , 2 ,-■■ ,10 000. 
其中 S 是单位正方形的内切圆.怎样利用你的程序去近似 n 的值？ 

( d ) 利用类似的计算机程序去近似地计算单位正方形内由条件0 < cosjtx + sinnj /^ 1 
所确定的点集的面积. 

43.* 设 X 和 y 是两个相互独立且具有相同分布的几何随机变量，其参数为 P . 证明 
P{X = i\X + Y = n ) = i = !,•■■ , n - 1 


解可以将参数为 P 的几何随机变量理解为连续抛掷一枚硬币直到正面出现所需抛掷 
的次数,而每次抛掷时正面出现的概率为 P . 这样 P(X = i\X + Y = n ) 可以解释 为：在 
抛掷硬币的序列中，第2次出现正面所需抛掷次数为 n 的条件下，第1次出现正面向 
上的时刻为第 i 次抛掷的概率.可以直观地解 释为： 己知第 n 次抛掷时，出现第 2 次正 
面向上由于对称性，第1次正面出现的抛掷时刻是等概率地分布在第1次到第 n - 1 
次抛掷上.现在形式地证明这个事实.首先，我们有 


P(X = i|X + y = n ) = 


P{X = i,X + Y = n ) 
~ P(X + Y = n )~ 


P(X = i ) P(y = n - i ) 
= P(X + y = n ) 


同时 


P(X = i )= p ( l - p ) i - 1 , i ^ l , 

P(Y = n - i ) = p { l - p ) 71 ^ 1 , n - i ^ l , 


这样 


P(X = i ) P(F = n - i ) = 


P 2 ( l - P ) n - 2 , 

0 , 


由此可知，对于 [ l , n - l ] 中的任何 i 和 j ， 均有 


若 i = 1 ， -..，n — 1， 
其他. 


P(X = i\X + Y = n ) = P { X = j\X +Y = n ). 


从而 

P(X = i\X + Y = n ) = i = l ，.-.， n - l . 

44.* 设 X 和 y 是两个随机变量，其联合分布列已知.又设 s 和/1分别为 X 和 F 的函数. 
证明如 X 和 Y 相互独立，则 S ( X ) 和 h ( Y ) 也相互独立. 

解令 c / = s P 0 ,v = h ( r ). 我们有 

Pu,v(u,v) = ^2 px , y { x , y ) 

{(x,y)\g(x)=u,h(Y)^v} 

= px { x ) p Y ( y ) 

{{x,y)\g(x)=u,h(y)=^} 



习 题 119 


= px ^ ^2 py ^ 

{x\g{x)=u} {y\h{Y)=v} 

= pu ( u ) pv ( v ), 


这说明 c / 和 V 相互独立. 

45.* 方差的 极值. 设不，…，为独立同分布的随机变量序列 ， X = X 1 + --. + X n . 

( a ) 假定 A 为伯努利随机变量，参数为 Pi ， 而参数序列 Pl ,-.. , Pn 满足条件 E：=iPi = 
M > 0•证明 X 的方差当 Pi 全等于 / x / n 的时候达到最大. 

( b ) 假定不为几何随机变量，参数为仍，而参数序列 Pl ,... , Pn 满足条件 E [ X ] = 
M > 0.证明 X 的方差当 Pi 全等于 n / p 的时候达到最小. [ 注意，⑷和 （ b ) 两 
部分具有完全不同的特征 .] 

解 

( a ) 我们有 

var(X) = ^2 var(Xi) = ^Pi(l-Pi) = 

i=l i=l i=l 

最大化方差的问题归结为最小化 E 7 = iPi 的问题.由下面的恒等式 


= m(Pi - W + Y,Wnf, 

1=1 T=1 i=l 

可知 H 7 = iPi 在扒 = p / n ,i = l , ■■- , n 的时候达到最小. 
( b ) 我们有 




和 


var(X) = ^ var(Xi)= 

i=l 

作变换讲 =1 / Pi = E [ Xi ]. 这样约束条件变成 


i=l 


在此约束条件下 X 的方差达到最小值的问题变成最小化 

n n 

Y^y^y* -!) = I] 2/? - a* 

i=l i=l 

的问题.这与⑷中讨论的问题是一样的.当取队 =^/ n：i = 时使得 

var ( X ) 达到最小值，即 Pi = n / M , i = 1， ... ， n 时使得 var ( X ) 达到最小. 

46 _* 熵和不确定性 .设义 是一个随机变量，它的取值范围为 { Xl ,..., Xn}! 相应的取值概 
率分别为 { pi , •■ - , Pn }. X 的熵定义为 


H ( X ) = Pi log Pi. 

i=l 
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(这个问题中的所有对数都是以2为底的对数 .） 熵 H{X) 是关于随机变量 X 取值不确 
定性的度量.为了给出一个直观的印象，注意到 H(X) ^ 0,并且当 X 的取值趋于确定 
值的时候（即 X 取某个值的概率趋于 1), H(X) 的值趋于 0( 这是由于当 p « 0或 p w 1 
时， plogp « 0). 

熵是信息论的基本概念，它最早由香农 (Shannon) 提出，在许多专业的教材中均有 
陈述.例如，设有一个随机变量 X ， X 取有限个值.为确定 X 的值，通常用“是非题”的 
方法逐步确定（比如“ X 是否等于町？ ”或“ X 是否小于 xs ? 1 '), 为确定 X 的值所需 
要问的问题数的平均数的下界为 H { X ). 进一步，设为了使一组独立同分布的随机变量 
的值所需要回答问题的平均数为 fc ， 则当 n 充分大的时候，可以使 fc / n 与 H ( X ) 任意 
地靠近. 

⑷证明如果是满足= 1的一组非负数，则 
H(X) ^ - ^pilogqt, 

i=l 

其中等号成立的充要条件是由= Pi 对一切 i 成立.作为特别情况，指出 H(X) < 
logn, 且等号成立的充要条件是 Pi = 1/n 对一切 i 成立. 提示： 利用不等式 
lna ^ a -1 对一切 a > 0成立，并且只有当 a = 1的时候等号成立. 

( b ) 设； s ： 和 y 是取有限个值的随机变量，其联合分布列为 Px,Y{x,y). 定义 


证明 I { X , Y ) ^ 0,并且 I ( X , F ) = 0成立的充要条件是 X 和 Y 相互独立. 
( c ) 证明 


I ( X , Y ) = H ( X ) + H ( Y ) — H ( X , Y ), 


其中 


H { X , Y ) = \ogp x ,Y(x,y), 

X y 

H{X) = - ^px(x) logpx(a：), H(Y) = - ^2 Pv{y) log p Y (v)- 


( d ) 证明 


I ( X , Y ) = H { X ) - H ( X \ Y ), 


其中 

H { X \ Y ) = - J 2 pY { y )^ 2 px \ Y ( x \ y ) iogp X \ Y { x \ y ). 
y x 

[ 注意： 可以认为是 y 给定的条件下的条件熵，即给定 Y = 2/之下 
首先对 X 的条件分布求熵，然后对所有可能的2/值求平均.这样 I ( X , Y ) = 
H ( X ) - H ( X \ Y ) 是知道 Y 的值的条件下熵（不确定性）的压缩量. I ( X , Y ) 也可 
解释为 X 中包含的 y 的那一部分的信息量.因此也成为 X 和 y 相互包含的信 
息量 .] 
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解 

(a) 我们利用不等式 lna ^ a- 1 ( 对于 a > 1, lna = j: 0-、< J\p = a - l, 
对于 0 < a < 1, lna = - y" 1 /TMp < — f d/3 = a - 1 )， 得到 

Inpi + ^pi lngi = ^Piln ^ ^Pi ( 吾 一 1) = 0, 

i = l i=l i=l i=l \P Z / 

其中等号成立的充要条件是必 = 仍对一切 i 成立 . 由于 lnp = logpln2 , 上面 
的不等式与 H{X) ^ ~YJl=\Pi lo S 是等价的 . 若令必 = l/n,i = 1,… ， n, 
H{X) ^ -EILiPJog^ 变成 H ( x ) ^ log^- 

(b) px(x)pv(y) 满足条件 Ylx J2yP^( x )Py(y) = !■ 利用⑷的结论，得到 

^2^2px,Y(x,y)log(px,Y{x,y)) ^ ^ ^px,y (x, y) log (px(x)p Y (y )), 

其中等号^成立的充要条件是 ' 

Px,y(x,y) = px {x)py(y), 对一切 x 和 y 成立， 

或等价地 X 和 Y 相互独立 . 

(c) 利用 J 和丑之定义，可得 

Y ) = 53 S P X ^ Y ( X ^ y) logpx.r (a:, y) - ^ ^px,y(a:, y) log (px{x)p Y (y)), 

工 y 2 ： y 

EEpx,y(a ；， y)logpjf ， y(a ； ,j/) = -H{X,Y) 

— [PxMx, y) log(px {x)p Y {y)) =-^^2px,Y{x,y) logpx ㈤ 

工 y x y 

-E E (a；, y) log py ⑼ 

a ： y 

= ~^2px(x) logpx(x) -^2Pv(y) logp Y (y) 
x y 

=H(X) + H{Y), 

由这 3 个公式，可以得到 I(X,Y) = i/(X) + H(Y)~ H(X,Y). 

(d) 由 （ c) 的计算，可得到 

J(X，y) = ^2^2 px,y( x ^ y) log(px,K(a：, y)) -^px(x) logpxW 
~^2^2px,v(x,y) log p Y {y) 

X y 

= 離 )+ ^ ^刺 log (^g^) 

=H(X) + ^^2pY{y)p X \Y{x\y) logp X \ Y (x\y) 

a ； y 

=H{X)-H{X\Y). 
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取值于连续区域的随机变量是十分普遍的.在高速公路上汽车的速度就是一 
个例子.若汽车的速度可从速度表读得，那么我们可将速度表的读数看成离散的随 
机变量.但是，为了将汽车的真实速度模型化，连续随机变量更为合适.多种理由 
说明连续随机变量是概率论中非常有用的概念.除了刻画细致和精确外,连续随机 
变量可以利用有力的分析工具解决概率的计算问题.更主要的是,连续随机变量还 
可以刻画某些随机现象的本质，而单纯靠离散随机变量，这是无法做到的. 

所有在第2章中讨论的概念，例如期望、分布列和条件等都有对应的概念.本 
章的任务就是将第2章中的概念在连续随机变量的情况下重新解释. 

3.1 连续随机变量和概率密度函数 

对于随机变量 x , 若存在一个非负函数 / x , 使得 
P(x e B) = J B f x (x)dx 

对每一个实数轴上的集合 i ? 都成立则称 X 为连续的随机变量，函数 / x 就称 
为 X 的概 率密度函数, 或简称 PDF. PDF 的概念与离散随机变量的分布列是相对 
应的.特别，当 B 是一个区间的时候 

P(a < X ^ 6) = J f x ( x ) dx , 

此时，这个积分可以理解为 PDF 和区间所形成的曲边梯形的面积（见图 3.1). 
对于单点集合 a ， 我们有 P(X = a ) = J " f x ( x)dx = 0. 由于这个原因，区间的端点 
对于概率的计算不起作用，即 ° 

P ( a^X ^ b )= P ( a<X < b )= P ( a^X < b )= P ( a<X ^ b ). 

①积分可以理解为黎曼积分，我们假定所涉及的函数是黎曼可积的.对于不寻常的函 

数或集合，这个积分可能是无法定义的，这是更近代的数学分析所处理的问题.我们通常遇到的函 
数是具有有限个（或可数个）间断点的逐段连续函数/ X ，通常的积分限为有限个（或可数个）区 
间的和.这些情况属于黎曼积分处理的范围. 
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一个函数能够成为 PDF , 它必须是非负的，即 fx ( x ) > 0对一切: c 成立，同时 

它还必须满足下面的归一性条件 

/■°° , 

/ fx ( x)dx — P(—oo < X < oo ) = 1. 

从图像上看， PDF 下面的且在 z 轴上面部分的面积必须等于 1. 



事件 { a ^ X ^ b } 

图 3.1 PDF 的解释 . X 取值于 [ a , 6] 的概率是/ fx { x ) dx , 这个积分就是图中阴影部分的 
面积 

也可以对 PDF 作这样的 解释： 对于很小的5,我们有 

P ([ x , a ; + 5]) = J fx ( x)dx w f x ( x ) - 8, 

这样，我们可以理解 fx ( x ) 为 X 落入 z 附近的单位长度的概率（见图 3.2) .由于 
fx ( x ) 是概率律，不是某一事件的概率，故 fx ( x ) 可以大于 1. 


PDF f x (x) 



图 3.2 PDF / x ⑷作为 * 附近的概率律的解释.设5很小，在图中 X 取值于 + 的 
概率是图中阴影部分的面积，它近似地等于 f x ( x )-5 


例 3.1 (连续的均匀随机变量）一个赌客在赌场转动幸运轮，幸运轮上具有连续 
的刻度，从0到 1. 每次轮子转动停止以后，固定的指针会指向轮子上的一个数.假 
定转动停止以后，指针指向幸运轮上任意两个长度相同的区间的概率是相等的.这 
样的随机试验可用一个随机变量 X 来刻画，叉的 PDF 可由下式给出 
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此处常数 c 可用下面的归一化条件 


fx(x)dx ■ 


cdx : 



dx = c 


确定，即 c = 1. 

更一般地，可以考虑取值于区间 [ a ，6] 上的随机变量.我们假定 X 取值于卜浏 
的任意两个长度相同的子区间的概率是相同的.这种随机变量称为 具有均匀分布 
的随机变量. 这种随机变量的 PDF 由下式 给出： 


PDF f x (x) 


图 3.3 均匀随机变量的 PDF 


fx ( x ) = 

(见图 3.3). / x (; r ) 在 [ a ，6] 上的常数 (1/(6- a )) 
可从下面的归一化条件 得到： 

1= [°° fx ( x ) dx = □ 

J-oo Ja b-a 


0, 其他， 


例 3.2 (逐段常数的 PDF ) 艾温开车上班.在天气晴朗的日子，大约需要驾驶 
15 〜 20分钟，雨天需要20〜25分钟.在每种情况下，驾驶时间都是在各自的范围内 
均勻地分布着的.假定晴天的可能性为2/3,雨天的可能性为 1/3. 若把艾温的驾驶 
时间叉看成随机变量，那么 X 的 PDF 是什么？ 

我们把“驾驶时间在各自的范围内均勻地分布”理解为 X 的 PDF 在各自的 
区间[15, 20] 和 [20,25] 上分别为常数.由于这两个区间包含所有可能的驾驶时间， 
X 的概率密度函数在其他范围内应该是 0. 这样 


I ci , 若 15 < a ; < 20， 
c 2 , 若20 彡 a : < 25， 

0，其他， 

此处 Cl 和 c 2 是常数.而这些常数可从雨天和晴天的概率确定. 


2 /-20 p 20 

3 = P (晴天 ） =/ fx(x)dx= / Cidx = 5 ci , 

6 Jl 5 Jl 5 

l / -25 n25 

7 =卩(雨天）=/ fx(x)dx 二 c 2 dx = 5 c 2 , 

6 J20 J20 


由雌到 2 


Cl = l 5 ! C 2= 15- 

将这个例子进行推广，考虑 X 的下列形式的 PDF 
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,,、 J Ci, 若 叫 彡 2 ； < 叫 +1 ， i= 1,2,••- ,n-l, 

fx{x) = i 

[ o , 其他， 

其中 fll < a 2 < … < 是常数， C 1 ， C 2 ，...， c „ 是一组非负数（见图 3.4). 常数 
ci )C2l --- , c n 可以像前面那样，由一组条件确定.一般说来，常数 Ci 必须满足下面 
的归一化 条件： 


n - L pa 

fx { x)dx = J 2 j 


Cyclic = — ). 


PDF f x (x) 


«i n-j % 


r： > 


«i 


图 3.4 含有三个区间的逐段常数 PDF 


例 3.3 (可以取任意大的值的 PDF ) 考虑 X 的下列 PDF 


fx(x) = 



若0 < a ; < 1， 
其他. 


尽 管在: r 趋于0的时候 f x ( x ) 的值可以任意地大， f x ( x ) 仍然是一个合法的密度 


函数.这是因为 


Mx)dX = J 0 ^ 



□ 


关于 PDF 性质的小结 

设 X 的 PDF (概率密度函数）为 f x ( x ). 

• fx ( x ) > 0对一切 a : 成立. 

• j fx { x)dx = 1. 

• 设 5 是一个充分小的正数，则 P ([ x,x + (5]) « fx ( x ) - S . 
• 对任何实数轴上的子集 S ， 

P(X eB )= f f x ( x ) dx . 
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3.1.1 期望 

连续随机变量 X 的期望或均值是由下式定义的： ® 

E [ X ] =厂 xf x { x ) dx . 

连续随机变量的期望的定义与离散随机变量的情况完全相似，只须将定义中的分布 
列置换成概率密度函数 ( PDF ), 求和置换成 积分. 正如第 2 章， E [ X ] 可以解释成 
PDF 的重心和大量独立重复试验中 X 的取值的平均数.毕竟,积分是某种求和的 
极限,连续情况的期望的数学性质与离散情况是极其相似的. 

设 X 是一个连续随机变量，其 PDF 为 / x ㈤ ，则 X 的任意函数 Y = 3( X ) 也 
是一个随机变量.注意， y 可以是连续随机变量，例如，取 Y = g ( X ) = X ，此时 r 
的 PDF 与 X 的 PDF 相同.但是 Y 也可能是离散随机变量，例如当 a ; > 0时，令 
g ( x ) = 1,否则令 3㈤ 二 0. 此时， y 只取0和1， Y 是一个离散的随机 变量. 但是 
无论是离散的或连续的结果，下述的期 望规则 总是成 立的： 

E[^(X)] = J g ( x ) f x ( x ) dx , 


(见 本章末尾的习题 .） 

随机变量 X 的 n 阶矩定义为 E [ X "]. 随机变量 X 的方差定义为随机变量 
{ X - E [ X }) 2 的期望，记为 var ( X ). 

现在我们将随机变量的性质列成下表，这些性质与离散随机变量的性质是完全 
相同的. 


连续随机变量的期望的性质 

记 X 为连续随机变量，其相应的 PDF (概率密度函数）为 f x ( x ). 
• X 的期望由下式定义： 

E [ X ] = J xf x { x ) dx . 


①在此，我们必须关心的一种可能性是：积分 厂 xfx ( x ) dx 可能取无限值或不存在.具体地说, 
我们称期望是有定义的，是指 厂 \ x \ fx ( x)dx < oo , 此时积分是有确切定义的，并且积分值小 


于无穷. 


作为期望没有确切定义的例子，考虑 X 的 PDF f x ( x ) = c/(l + x ^), 此处 c 是一个归一 
化常数.函数 M / xOr ) 在 |: r | 充分大的时候可用 c /\ x \ 逼近.由于 J ^°( l / x)dx = oo , 可知 

厂 (\ x \ fx ( x))dx = oo . 这样， E [ X ] 是没有定义的，尽管 X 的 PDF 相对于0是对称的. 

°°本书中，如无特别申明，总是假定连续随机变量 X 的期望是有定义的. 



3.1 连续随机变量和概率密度函数 127 


• 关于随机变量 〆X )的期望规则为 

E[ff(X)] = g(x)f x (x)dx. 

• X 的方差由下式 给出： 

var(X) = E[(X- E[X]) 2 ]= 厂 [x - E[X]) 2 f x (x)dx. 

• 关于方差，下列公式 成立： 

0 《 var(X) = E[X 2 ] - (E[X]) 2 . 

• 设 Y = a X + 6, 其中(1和6为常数，则 

E[y] = aE[X] + 6, var(y) = a 2 var(X). 

例 3.4 (均匀随机变量的均值和方差）设随机变量 X 的分布为 [a, 6] 上的均匀分 
布，见例 3.1. 我们有 


E[X] = f xf x (x)dx 

J — OO 



b — a 2 
a ~\~b 

2 • 


这个期望值刚好等于 PDF 的对称中心 
为求得 方差， 先计算 X 的二阶矩， 
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_ b 3 - a 3 
3 (b — a ) 
a 2 ab -\- b 2 
= 3 ' 

这样, X 的方差为 

var W = E ^]- 剛卜 _[ a^l = ^ay 

3.1.2 指数随机变量 

若随机变量 X 的 PDF 具有下列 形式： 

fx { x ) = 

则称 X 是指 数随机变量， 其中 A 是分布的参数 ， A > 0( 见图 3.5). 这个函数是合法 
的密度函数，其原因是 

f fx ( x)dx = f Ae _ Ax da : = — e _Ax |^° = 1. 

J — oo J 0 

注意，指数分布具有这样的 特性： X 超过某个值的概率，随着这个值的增加而按指 
数递减，即对于任意 a ^ o , 

P(X ^ a )= [ \ e~ Xx dx = - e _Ax |~ = e _Aa . 

J a 


/y(.X') fx(x) 



图 3.5 指数随机变量的 PDF Ae- Aa 


指数随机变量具有广泛的用处，它可以代表到发生某个事件为止.所用的时间， 
例如，这个事件可以是某条信息到达计算机、一台仪器的使用寿命终止、一个灯泡 
用坏了或一辆汽车出一次车祸等等.我们将会看出，指数随机变量与离散的几何随 
机变量十分相似.几何随机变量也与某一个我们感兴趣的事件发生的（离散）时间 
相关联.在第6章讨论随机过程时，指数分布是十分重要的工具.但目前，我们将 
指数分布作为一种常见的分布处理. 

指数随机变量的均值和方差由下列公式 给出： 


Ae - Ax , 若 : r 彡0, 
0， 其他， 



3.2 分布函数 1四 


E [ X ] = p var ( X ) = 

这些公式可以直接计算得到.利用分部积分法， 


E [ X ] = / a ; Ae _ Ax da ; 


(-xe- Ax )| + j e- Xx dx 


再次利用分部积分法，可得到 X 的二阶矩， 


E[X 2 } = [°° x 2 \e~ Xx dx 
Jo 

= (-^ 2 e - Ax )| + r 2xe~ Xx dx 

lo Jo 

= 0 + jE [ X ] 

2 

= V 

最后，利用公式 var ( X ) = E [ X 2 } - ( E [ X ]) 2 , 得到 


2 11 
w(x) = = 

例 3.5 小陨石落入非洲撤哈拉沙漠的时间是遵从指数族分布的.具体地说，从某 
一观察者开始观察，直到发现一颗陨石落到沙漠，这个时间的分布是指数分布，这 
个时间的平均长度是10天.现在假定，目前时间为晚上12点整.问在第二天早晨 
6:00到傍晚6:00之间陨石首次落下的概率有多大？ 

假定 X 是为了观察陨石落下所需要的等待时间.由于 X 的分布为指数分布， 
均值 1 /A = 10,由此知 A = 1/10. 所求的概率为 


P ( l /4 彡 X 彡 3/4) = P(X 彡 1/4) — P(X > 3/4) = e _ 忐一 e -嘉= 0.047 6, 


此处我们利用了公式 P(X ^ a )= P(X > a ) = e ~ Xa . 


□ 


3.2 分布函数 


我们分别用分布列（离散情况）和概率密度函数（连续情况）来刻画随机变量 
x 的取值规律.现在我们希望用一个统一的数学工具去刻画随机变量的取值规律. 
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分布函数 （用记号 CDF 表示简称）就能完成这个任务 . X 的 CDF 是一个 cr 的函 
数，对每一个 a ；， F x ( x ) 定义为 P(X < : r ). 特别地，当 X 为离散或连续的情况下， 

iJ 2 px ( k ), 若 X 离散的， 

I 

F x (x)=P(X^x) = { 

J f x 〔 t)dt, 若 X 连续的. 

分布函数又称累积分布函数，累积意味着 Fxh ) 将 X 取值的概率由 - oo 累计到 

X. 

在一个概率模型中，随机变量可以有不同的类型，可以是离散的，也可以是连 
续的，甚至可以是既非离散也非连续的.但不管是什么类型的随机变量，它们有一 
个共同的特征，即都有一个分布函数，这是因为 {X < 4是一个随机事件，这些事 
件的概率形成概率分布.今后，凡是刻画事件 {X < 4的概率的，都称为随机变量 
X 的概率律.因此离散情况下的分布列，连续情况下的概率密度函数以及一般情况 
下的分布函数都是相应的随机变量的概率律. 

图 3 . 6 和图3. 7 分别给离散随机变量的 CDF 和连续随机变量的 CDF 一些说 
明.从这些图像以及 CDF 的定义，可以得到 CDF 的某些一般的性质. 


^(2) 

‘ PMF Px (x) ‘ 

' CDF F x {x) 

.."~ ~ "* - 

^(2) 

5" 

1 2 3 4 x 01 

1 2 3 4 x 


k PMF p x (x) - 

' CDF F x {x) 


. 1 . 

• - .~ 

o " 

x Ol 

X 


图 3.6 某些离散随机变量的 CDF . 通过随机变量的分布列，可求得相应的分布 函数： 

F x ( x ) = P(X < x ) = px { k ). 

k^x 

这个函数是一个阶梯函数，在具有正概率的那些点上具有跳跃.在跳跃点上， F x ( x ) 
取较大的那个值，即 F x ( x ) 保持右连续 
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PDF f x ( x ) 


CDF F x ( x ) 



图 3.7 某些连续随机变量的 CDF . 通过随机变量的密度函数，可求得相应的分布 函数: 
F x ( x ) = P(X < x ) = 厂 fx { t ) dt . 


概率密度函数 fx ( x ) 可由 CDF 经微商得到 

"㈤ = 眷 ㈤. 

对于连续随机变量， CDF 是连续的 


CDF 的性质 

X 的 CDFFxh ) 是由下式定义的， 

F x ( x ) = P(X ^ x ), y x , 

并且 FxOr ) 具有下列性质. 

• Fxh ) 是： r 的单调非减 函数： 

若 a : < y , 则 F x ( x ) < F x ( y ). 

•当 x -+ - oo 的时候， F x ( x ) 趋于0,当 ; r — oo 的时候， F x ( x ) 趋于 1. 

• 当 X 是离散随机变量的时候， F x (： r ) 为阶梯函数. 

•当 X 是连续随机变量的时候， F x (: c ) 为 z 的连续函数. 

•当 X 是离散随机变量并且取整数值时，分布函数和分布列可以利用求和 
或差分 互求： fc 

F x ( k ) = ^2 PxiA 

Px ( k ) = P(X ^ fe ) - P(X < fc - 1) = F x ( k ) - F x ( k -1), 

其中 fc 可以是任意整数. 
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•当 X 是连续随机变量的时候，分布函数和概率密度函数可以利用积分或 
微分 互求： x 

Fx ( x ) = fx ( t ) dt , f x ( x ) = ^( x ). 

(第二个等式只在分布函数可微的那些点上成立 .） 


有时候，为了计算随机变量的分布列或密度函数，首先计算随机变量的分布函 
数会更方便些.在连续随机变量的情况下，我们将在 4.1 节中系统地介绍用该方法 
求随机变量的函数的分布.下面是一个离散随机变量的计算例子. 

例 3.6 (几个随机变量的最大值） 你参加某种测试，按规定三次测试的最高成绩 
作为你的最后成绩.设 

X = max{X 1 ,X 2 ,X 3 }, 

其中是三次测试的成绩， X 是你的最后成绩.假定你的每次测试成绩 
是1分到10分之间，并且 P(X = i ) = 1/10, i = 1，…， 10. 现在求最终成绩 X 的 
分布列. 

我们采用间接方法求分布列.首先计算 X 的 CDF , 然后通过 
Px(k) = F x (k) ~ F x (k- 1), i = l, … ， 10, 

得到 X 的分布列.对于 F x ( k ), 我们有 
F x ( k )= P ( X ^ k ) 

= P(-^i ^ k , X 2 ^ k , X 3 < k ) 

= P ( X ± ^ k ) P ( X 2 < fc ) P ( X 3 < k ) 

=(盖) 3 ， 

此处第三个等式是由事件 {Xi < / c }，{ X 2 < fc }，{ X 3 < fc } 相互独立所致.这样 X 的 
分布列为 

Px{k) = (^) - (¥) ， 

本例的方法可推广到 n 个随机变量的情况.如果对每一个 a ；， 事 
件 {A < ir }， …， { X „ 彡 z } 相互独立，则 X = maxfXi , …， X „} 的 CDF 为 

F ( x ) = F Xl ( x )--- F Xn ( x ). 


利用这个公式，在离散情况下通过差分可得到 p x ( x ), 在连续情况下通过微分可得 
到 fx ( x ). □ 
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几何和指数随机变量的分布函数 

由于分布函数对一切随机变量都适用，我们可以利用它来探讨离散和连续随机 
变量之间的关系.特别地，此处讨论几何随机变量和指数随机变量之间的关系. 

设 X 是一个几何随机变量，其参数为 p ， 即 X 是在伯努利独立试验序列中直 
到第一次成功所需要的试验次数，而伯努利试验的参数为 p . 这样对于 A : = 1，2,…， 
我们有 P(X = k )= p(l - pf ~\ 而 X 的 CDF 为 

^ geo ( n ) = ((〜 一?) =1- { l - p ) n , n = 1，2, …. 

现在设 X 是一个指数随机变量，其参数 A > 0.其 CDF 是 

■PexpOc) = P(A" ^ X) = 0, X < 0, 

Fexp (^) = J Ae = ~|q = 1 — e - ^, x > 0. 

现在比较两个分布函数，令 <5 =- ln ( l - p )/ A , 这样 

e— M = l - p . 

分布函数 F exp ^ x = n 5 处是与 i ^。 在 n 处相等的 ， n = 1，2,…，即 
F exp ( n 5) = Fgeo ( n ), n = 1，2, ..-. 

现在假定我们以很快的速度抛掷一枚不均匀的硬币（每 J 秒抛掷一次， J 《1)，每 
次抛掷,正面向上的概率为 p = l - e - xs . 这样，第一次得到正面向上所抛掷的次数 
为 X ,第一次得到正面向上的时刻为 XJ . U 与参数为 A 的指数随机变量十分接 
近，这只须看它们的分布函数即可（见图 3.8) .在第6章中，讨论伯努利和泊松过程 
的时候,这种关系显得特别重要 • 



图 3.8 几何随机变量和指数随机变量的分布函数之间的关系.图中离散分布函数为的分 
布函数 ，义 是参数为 p = l - e ~ xs 的几何随机变量.当 <5 ^ 0时， X 5 的分布函数趋 
于指数分布函数1 - 
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3.3 正态随机变量 

一个连续随机变量久称 为正态 的或高斯的，若它的密度函数具有下列形式 
(见图 3.9)： 

/办卜士-― ' 

其中 / i 和 CT 是密度函数的两个参数， CT 还必须是正数.可以证明， fx(X) 满足下面 
的概率密度函数的归一化条件（见本章末尾的习 题)： 



01 2 3 x -1 0 1 2 3 

正态 PDF f x (x) 正态 CDF F x {x) 


图 3.9 正态分布的密度函数和分布函数 （/X = 1和 <7 2 = 1). 由图可以看出，密度函数 
是相对于均值 M 对称的钟形曲线.当 x 离开 M 的时候，密度函数的表达式中的项 
很快地下降.在图中，概率密度函数在区间 [-1,3] 之外非常接近于0 

正态随机变量的均值和方差可由下式给出 

E[X] = fi, var(X) = a 2 . 

由于 X 的概率密度函数相对于 M 对称,其均值只能是 / x . 至于方差的公式，依定义 
它由下式给出 

var(X) = [°° {x- At )2 e -(x-M) 2 /(2- 2 ) da; . 

\/2jt(j J-oo 

将公式中的积分作积分变量替换 y = ( x - i^)/a 以及分部积分,得到 
var(X) = -~= J y 2 e~ y2 ^ 2 dy 

4(- ，气 +憙/ 
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-wjy^ 


上面最后的等式是由于 

▲Lj - v2/2dv=i ， 

这个公式正好是当 M = 0和 a 2 = 1的时候的正态随机变量的概率密度函数的归一 
化条件. 

正态随机变量具有若干重要的性质.下面的性质尤其重要，并且将在 4.1 节中 
加以证明. 

线性变换之下随机变量的正态性保持不变 

设义 是正态随机变量，其均值为 M ， 方差为若 a # 0和6为两个常数， 
则随机变量 

Y = aX + b 

仍然是正态随机变量，其均值和方差由下式 给出： 

E [ y ] = afj , + b , var ( y ) = a 2 a 2 . 

标准正态随机变量 

设正态随机变量 y 的期望为0,方差为1，则 y 称 为标准正态随机变量 .以$ 
记为它的 CDF (参看图 3.10)： 

$(y) = P(F <y)=P(Y <y ) = j 厂 e~ t 2 / 2 dt. 

v 2 jt J —oo 

通常将它的值列成一个表（见表 3 .1)，这是计算有关正态随机变量的概率的重要的 
工具. 


标准正态 PDF 标准正态 CDF $(?/) 

图 3 .10标准正态随机变量的概率密度函数 f x { x ) =知-作 和相应的分布函数 
$( y ) 的数值有表可查 
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_ 表 3.1 标准正态分布表 _ 

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 

0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 

0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 

0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 

0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 

0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 

0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 

0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 

0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 

1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0,8770 0.8790 0.8810 0.8830 

1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 

1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 

1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 

1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 

1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 

1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 

1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 

2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 

2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 

2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 

2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 

2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 

2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 

2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 

2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 

3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 

3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 

3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 

3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 

表中的数据为标准正态分布函数的函数值少 ( y ) = P(Y 其中 Y 为标准正态随机变量， y 的变 
化范围为0彡 y < 3.49. 例如要查找 $(1.71) 的值，我们只需在 1.7 这一行中找与 0.01 对应那一列的数 
值.故 $(1.71) = 0.956 4.当 y 为负值的时候，可利用公式中⑼=1 — H ~ v ) 找到 Hv ) 的值 
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表中列出的数据为 $( y ) 的值 （y > 0)，利用标准正态随机变量的概率密度函数 
的对称性，可将 j / < 0时 $( y ) 的值推导出来.例如 


$(-0.5) = P ( Y ^ -0.5) = P(Y ^ 0.5) = 1 - P(F < 0.5) 
=1- $(0.5) = 1 - 0.691 5 = 0.308 5. 


更一般地，我们有 

$(— y ) = 1 - $(?/)，对一切 y 成立. 

现在设 X 是正态随机变量，期望为 M ， 方差为 a 2 . 将 X 标准化成为新的随机 


由于 y 是 x 的线性函数，所以 y 也是正态随机变量.进一步， 

E[ y] = M^ = 0 , var ( r ) = ^)=l. 

这样， F 就是一个标准正态随机变量.利用这个事实，可以计算关于 X 的事件的概 
率.将关于 X 的事件化成由 y 表达的事件，再利用标准正态分布表，就可以计算 
关于 X 的事件的概率. 

例 3.7 (利用正态分布函数表） 某地区的年降雪量是一个正态随机变量，期望为 
60英寸,标准差 a = 20 英寸，本年降雪量至少为80英寸的概率有多大？ 

记 X 为年降雪量，令 


X-n X - 60 
a = 20 


显然 F 是标准正态随机变量. 

p(x^ 80 ) = p =^(y> =p(y>D = i-m 

其中$为标准正态分布函数.通过査表得 
$(1) = 0.841 3, 


故 


P(X > 80) = 1 — $(1) = 0.158 7. 


□ 


将上面的方法进行总结，得到如下结果. 


关于正态随机变量的 CDF 的计算 

利用标准正态分布表计算正态随机变量 X 的分布函数（ X 的均值为 M ， 方差 
为/)，下面分两部分 进行： 
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(a) 将 X 标准化，即减去 M ， 再除以^得到标准正态随机变量 

(b) 从标准正态分布表查得 CDF 的值： 



-㈢’ 

其中 F 是标准正态随机变量. 



在信号处理和通信工程中通常将噪声看成一个随机变量，它加在信号上面，使 
之变形.下面是一个典型的例子. 

例 3.8 (信号检测） 记一个传输的信号为 S = 1或 S = -1. 由于通信误差，在 
接收端得到的是加有噪声的信号， 嗓声 N 是一个正态随机变量，均值为 /X = 0,方 
差为 a 2 . 如果接收端得到的混有噪声的信号大于0,则判断信号5=1;如果接收 
端得到的混有噪声的信号小于0,则判断信号 S = -1( 见图 3.11). 问这种判断方法 
的误差有多大？ 

正态噪声况 
均值为0,方差 a 2 

I +1若5+价0 


I 发送器 I- 

' - ' 信号 

s=+l 或 _1 - l ^ s + iV <0 


噪声频道 


接收器 



发送+1时的 
误差范围 




图 3.11 例 3.8 中信号检测问题的图示.图中阴影部分的面积分别表示传输的信号为 -1 和 
+1时发生误传的概率 


当传输方传输的信号为 S = -1，而噪声 7 V >1， 此时 S + iV = iV _ l >0, 
接收方误判为 S = +1. 当传输方传输的信号为5=1,而噪声 AT < — 1; 此时 
S + N = N + 1<0, 接收方误判为5 = -1. 因此，当5 = -1 的时候，误判概率为 


P (7 V > l ) = l - P ( AT ^ l ) = l-P 
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由对称性可知，若发送的信号为 S = +1，其相应的误判概率也是1 - $(1/<7) •而 
$( l / a ) 可通过査表得到,例如当 a = 1的时候, $( l / a ) =少⑴= 0.841 3,判断误差 
的概率为 0.158 7. 口 

正态随机变量在概率论中起着十分重要的作用.其原因是在物理、工程和统计 
中，许多随机量是由许多独立效应叠加而成的.而数学上，又有这样的 事实： 大量 
的独立同分布的随机变量（不必为正态）的和的分布近似地服从正态分布，而这个 
事实与各个和项的具体的分布是无关的. 这个事实就是著名的中 心极限 定理. 我们 
将在第5章讨论此内容. 


3.4 多个随机变量的联合概率密度 

现在将 PDF 的概念推广到多个随机变量的情况.与离散的情况相似，我们将 
引进联合、边缘以及条件 PDF 的概念，其直观解释和主要性质与离散情况完全平 
行. 

设 X 和 y 为在同一个试验中的两个随机变量.若它们存在联合的概率密度 
函数，则称 X 和 F 是 联合连续的. 那么联合的概率密度函数是如何定义的呢？非 
负的二元函数 fx , Y ( x , y ) 称为 X 和 Y 的 联合概率密度函数， 如对任意的平面上的 
二元集合 S ， 下式 成立： 

P (( X ， Y ) eB ) = f f fx tY ( x , y ) dxdy . 

J J(^,y)€B 

上式的积分是二重积分，积分区域为 S . 特别地, 若 B = {( x , y)\a 
d }, 则上式变成 


P(a < X < 6, c < y ^ d ) = / / fx,v{x, y)dxdy. 

Ja Jc 

进一步,若令 s 为全部二维平面，就可以得到密度函数的归一化条件 

/ [ fx,v{x,y)A.xdy = 1 . 


为解释联合概率密度函数的意义，取 J 为一个充分小的正数，考虑 （ x , y ) 落 
入一个小方块内的概率， 

/ a+<5 nc-\-5 

J fx,v(x : y)dxdy « fx,y(a, c ). 5 2 ， 

我们可以将 fx , v ( a , c ) 看成 ( X , y ) 落入 ( a , c ) 附近单位面积中的概率. 

联合概率密度函数包 含了所 有关于 ( X , y ) 的取值概率的信息，包括它们之间 
的相互依赖的信息.利用它，我们可以计算任何由 ( X , Y ) 所刻画的事件的概率.作 
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为特殊情况，我们可以计算单独一个随机变量 （ x 或 y ) 所刻画的事件的概率.例 
如，令4为一个实数的集合，考虑事件 {X e 4}. 我们有 

P(X eA )= P(X e A,Y e (- oo , oo )) = f [ fx , Y { x , y ) dxdy . 

J A J —oo 

与下面的公式比较 

P(X e A ) = Jj x (x)dx, 

就可以知道 ， X 的边缘概率密度函数由下式给出 

r°° 

fx(x) = J fx,y(x,y)dy. 

类似地可得 

r°° 

fv(y) = / fx,Y(x,y)dx. 

例 3 . 9 (二维均匀概率密度函数） 罗密欧和朱丽叶约定在某时某地约会，但是每 
个人都会延迟，延迟时间在0至1小时之间（见 1.2 节的例子).令 X 和 F 分别为 
罗密欧和朱丽叶迟到的时间.假定他们迟到的时间 （ AJ /) 在单位正方形中是等可能 
的.这样 ( X , Y ) 的联合概率密度函数就很自然地定为 


fx ， Y(x ， y) = 


c , 若 
0,其他， 


其中 c 是一个常数.由于概率密度函数满足归一化条件 


[fx,y(x,y)dxdy = 


cdxdy = 1, 


由此可以确定 


这是一个联合均勻概率密度函数的例子.更一般地，令^是二维平面上的一个子 
集.在子集 s 上的联合均勻概率密度函数是由下式定义的： 

若 （ x , y ) 6 S , 

其他， 


fx , y ( x , y ) = i 夕的面积 , 
0， 


对任何 S 的子集八 ( X , Y ) 落入区域 A 的概率为 

H Y ) 6 A) = f f fx,Y(x,y)dxdy = 
J ^{^,y)eA 

A 的面积 


IL 


猶面积 y j {x , y)eA 


dxdy 
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例 3.10 设X和 Y 是在平面中集合 S 上的均匀随机变量，即它们的联合概率密 
度函数在集合 S 上为常数 c， 在集合 S 之外为0.而 S 的形状如图 3.12 所示.现 
在希望求出概率密度函数中的常数 C 以及X和 y 的边缘概率密度函数. 



图 3.12 例 3.10 中的联合概率密度函数和相应的边缘概率密度函数. 

由图所示， S 的面积为4,这样 f XtY ( x ,y)=c=l/4, (x,y)eS. 现在求X的边 
缘概率密度函数 f x ㈤ , 我们只需固定 a; 的值,将联合概率密度函数对 y 进行积分， 
就可以得到 fx(x) 的值.最后的结果都列于图 3.12 中 . 知的计算是类似的 .口 
例 3.11 (蒲丰的抛针试验) ® 这是一个著名的例子，几何概率由此发源.所讨论的 
问题是对随机放置的对象的几何性质的分析. 

在平面上画了若干条平行线，相互之间的距离为 d (见图 3.13). 现在往平面上 
随机地抛掷一根针,针的长度为 L 问针与直线相交的概率有多大？ 

我们假定 Z < d， 这样针不能同时与两条直线同时相交.令X为针的中点离最 
近的那一条直线的垂直距离，0表示针与平行直线之间的夹角（见图 3.13). 我们假 
定 { X , 0) 的联合概率密度函数为矩形集合 {(x,6>)|0 < a: < d /2,0 ^6 ^ n /2 ] 上的 
联合均勻概率密度函数.因此 ， 

f \若 x 6 [0, d /2 ] 和 6> e [0,Jt/2], 

fx,e{x,6) = i 

[o, 其他. 

①这个问题为法国自然学家蒲丰于1777年提出并解决.此后，出现许多类似的问题，包括拉普拉斯 
(1812 年）提出的向具有网格的平面上丢针问题（见本章末尾的习题).这个问题引起了科学家的 
兴趣，并且作为以试验产生7!的主要手段.据说，在美国内战的时候，有一个名为福克斯的陆军上 
尉在养伤的时候用针进行抛掷试验，以获得 ir 的值.在互联网上也有人利用蒲丰的想法，他们用几 
个图形模拟程序计算的值. 
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由图 3.13 可以看出，针与平行直线相交的充要条件为 


其相应的概率为 


P(X<(Z/2)sin0)= / [ fxM^^xdO 

J Jx^{l/2)sin9 

A 严 /2 p{im Bind 

=— / / dxd^ 

Jo Jo 
4 f n l 2 I 

= ―/ -sin ede 
Jtd J 0 2 

=x 


_ 2[ 
nd' 

我们也可利用试验来估计针与平行直线相交的概率.其方法是重复大量的抛掷针 
的试验，将针与平行直线相交的频率作为这个概率的估计值.由于这个概率值等于 
2 l /( nd ), 这种方法也同时提供了 Jt 的经验估值的方法. □ 



图 3.13 蒲丰的抛针试验.设针的中点与最靠近的平行线的距离为： c , 针的中点与针所在直线 
与平行线的交点之间的距离为 x / sm 0 . 显然针与平行线相交的充要条件为 x / sin 0< 
Z /2 


3.4.1 联合分布函数 

设； f 和 Y 是在同一个试验中的两个随机变量.我们定义它们的联合分布函 

数为 

Fx , y ( x , y ) = P(X ^ x,Y ^ y ). 
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与一个变量的分布函数一样，它既适用于离散随机变量，也适用于连续的随机变量. 
特别地, 若 X ， Y 具有联合的概率密度函数（简称联合 PDF )， 则 

Fx,Y(x,y) = P(X ^ x,Y ^ y) = f f f x ,Y( s ^)^dt. 

J — ooJ — oo 

相反，联合概率密度函数也可从联合分布函数通过求微商 得到： 

例 3.12 设 X 和 y 为单位正方形上的联合均勻随机变量.其联合分布函数为 

F x ,y{ x ^y) = P (尤 ^ x,y ^y)= xy, 对 0 彡 : e, y < 1. 

这样，对于单位正方形中的 （ x ， y )， 

^§ f (x ^ )= 1 = fx 水办 口 

3.4.2 期望 

设 X 和 y 为联合连续的随机变量， g 是一个函数，则 g { X , Y ) 也是一个随机 
变量•在 4.1 节中我们将讨论 Z 的期望的计算方法.现在我们必须指出，计算期望 
的期望规则仍然有效.因此 

E b(H = / /" g(x,y)f X} Y(x,y)dxdy. 

J —OO J —OO 

作为一种重要的特殊情况,对于常数 a,b,c, 我们有 

E[aX + bY + c ]= aE [ X ] + bE [ Y ] + c . 

3.4.3 多于两个随机变量的情况 

3个随机变量和 Z 的联合概率密度函数的定义与两个随机变量的情况 
是完全相似的.例如，满足下列条件 

P (( X , Y , Z ) e B ) = f f f fx , Y , z { x , y , z ) dxdydz , V5 

J J J (x,y,z)eB 

的非负函数 / x ， r , z ( x ， y ， z ) 就是 ( X , Y , Z ) 的联合概率密度函数.下列类型的关系都 
是成 立的： 

fx,y(x,y) = J fx,Y,z(x,y,z)dz, 

fx{x) = / / f x ,Y,z(x,y,z)dydz. 

J — oo J — oo 
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计算随机变量 〆 x , y ， z ) 的期望的规则是 

poo pOO poo 

E[g(X, Y, Z)\ = / / / g{x, y, z)f x ,Y,z(x, y, z)dxdydz, 

J — oo J — oo J —oo 

若 3 是一个线性函数+ c z ， 则 

E[aX + bY + cZ] = aE[X] + bE[Y] + cE[Z}. 

若涉及的随机变量的个数多于 3 个，相应的改变是明显的.例如，对于随机变量 
U 2, …人 我们有 

E[aiXi + 0,2^2 + …+ a n X n ] = aiE[Xi] + a2E[_X"2] + ... + o„E[X„]. 


多元连续随机变量的性质的综合 

令 X 和 Y 为联合连续随机变量，其联合概率密度函数为 fx ， Y ( x , V ). 

• 利 用联合概率密 度函数可以进行概率 计算： 

P (( X ， y ) eB )= [ [ f x , Y ( x , y ) dxdy . 

• x 和 y 的边缘联合概率密度函数可利用联合概率密度函数进行计算得 
到： 


fx ( x ) 


f ( x , y )( x , y ) dy , f Y { y ) 


f(x,y){x,y)di 


联合分布函数是 由公式 F x , Y ( x , y ) = P(X ^ x,Y ^ y ) 所定义，并且，在联 
合 PDF 的连续点上，下面的公式 成立： 

fx ^ y) = d -^^ y) - 

X 和 r 的函数 S ( X ， F ) 定义了一个新的随机变量，并且 

Eb(^, Y)}= f ( g(x,y)fx,Y(x,y)dxdy. 

J — OO J — oo 


若 0 是一个线性函数 aX + &y + c ， 则 

E[aX + bY + c }= aE [ X ] + 6 E [ y ] + c . 

• 上面的结论能够很自然地推广到多于两个随机变量的情况. 
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3.5 条 件 


与离散随机变量的情况相似，可以以一个随机事件或另一个随机变量为条件， 
讨论随机变量的特性，并在此基础上建立条件分布密度和条件期望的概念.各种定 
义和公式都与离散的情况平行,且其意义的解释也都是类似的.在连续情况下，还 
会遇到以零概率事件= 0} 为条件的情况，这在离散情况下是无法处理的. 

3.5.1 以事件为条件的随机变量 

一个连续随机变量 X 在给定条件 {X e A }( P{x g A } > 0) 下 的条件概率密 
度函数 是这样定 义的： 它是一个非负函数，并且对一切直线上的集合 
满足 

V{XeB\A)= Jj x[A {x)Ax. 

特别地，当 S 取成全部实数集合的时候,得到归一化等式 



这说明 f x \ A 是一个合格的概率密度函数. 

当我们将事件 A 取成 {X e 的形式以后 ( P(X eA )> 0), 由条件概率的定 
义得到 


P(x e B\x eA) = 


P{x eA,x eB) 


: fx { x)dx 


P(X e A) P(X ' 

将这个式子与前面的关于条件密度函数的定义比较，可知 


4 


fx { x ) 


若 a ; G A ， 


fx\A(x) = {nxeAy 

o , 其他. 


与离散情况相同，条件概率密度函数在条件集合外边的取值为 0. 在条件集合 
内部，条件概率密度函数与无条件概率密度函数具有相同的形状，唯一的差别是条 
件概率密度函数还有一个归一化因子 1/ P(X e A ). 归一化因子 1/ P(X e 使得 
fx \ A ( x ) 的积分为1，从而 fx \ A ( x ) 成为一个合格的概率密度函数（见图 3.14) .这 
样，条件概率密度函数与概率密度函数一样，不过它将已经发生的事件 {X e A } 作 
为随机试验的全空间. 


例 3.13 (指数随机变量的无记忆性）一个灯泡的使用寿命 T 是一个指数随机变 
量，其参数为 A . 阿丽将灯打开后离开房间，在外面呆了一段时间以后（时间长度为 
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t ), 她回到房间，灯还是亮着.这相当于事件 A = { T > t } 发生了.记 X 为灯泡的剩 
余寿命，问 X 的分布函数是什么？实际上 X 是在 A 发生的条件下的寿命，我们有 


P(X > x \ A ) = P ( T>t + x\T > t ) 

P ( T>t + x RT > t ) 
= P(T > t ) 
P ( T>t + x ) 

= P(T > t ) 


= e" 


此处我们利用了 3.2 节中得到的指数随机变量的分布函数的公式. 



图 3.14 无条件概率密度函数 /x 和条件概率密度函数 / x l { x E A } ，其中4是区间 [ a , 6], 注意 
在集合4内， fx \ { xeA } 的形状与 fx ( x ) 保持一致，除了在 2 /轴方向有一个压缩因子 


灯泡的剩余寿命 X 的分布函数是指数分布，其参数也是 A ， 这和灯泡已经亮 
了多少小时是无 关的. 指数分布的这个性质就是指数分布的无记忆性.一般地，若 
将完成某个任务所需要的时间的分布定为指数分布，那么只要这个任务没有完成， 
要完成这个任务所需要的剩余时间的分布仍然是指数分布，并且其参数也是不变化 
的. □ 


当涉及多个随机变量的时候，相应地有联合条件分布密度函数.例如，设 X 和 
Y 是联合连续的随机变量，其联合分布密度为 f xx . 设作为条件的正概率事件为 
c = {(x,Y) e 乂}， X 和 r 的联合条件分布密度为 


fx , r \ c ( x , y ) 


此时 X 的相对于条件 C 的条件分布密度可从联合条件分布密度得到 
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fx\c{x) = J fx,Y\c(x,y)dy. 

这两个公式说明，当刻画条件的事件不具有形式 x e A 而是通过多元随机变量表 
达的时候, X 的条件概率密度可通过联合条件概率密度得到. 

最后我们要介绍一个全概率定理的条件概率密度版本.设 Ai ，…，是样本 
空间的一个分割，则 ^ 

fx(x) = Y^P(Aj)fx\A(x)- 

i=l 

为验证这个公式，我们只需利用第1章的全概率定理，得到 

n 

P(X < x)=Yl P (次) P(X < ^\ Ai ). 

i=l 

将这个公式写成积分形式 


r fx(t)dt=^2P(A i ) r f X[Ai (t)dt. 

' — oo ，- _1 J — oo 


再在两边对: r 求导数，就得到所需的结果. 


以事件为条件的条件概率密度函数 

• 对于给定的事件 A ( P (4) > 0)，连续随机变量 X 的条件概率密度 / X|A 是 
满足下列条件的 函数： 


P(Xe B \ A ) 


fx\A(x)dx, 


其中 S 是实数轴上的任意集合. 

•设4是一个实数集合，满足条件 P(X e 4) > 0,则 


r fx(x) 

fx\ { xeA}(x) = ^ p (^ e A) 

0， 


若 ； c e A , 
其他. 


• WA 1 , A 2 ,---, A n 为互不相容的 n 个事件，对每个 i ， P ( A ) > 0, 并且这些 
事件形成样本空间的一个分割.则 


fx(x) =Y t p (A)fx\A i (x) 

i=l 

(全概率公式的一种变形). 
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下面的例子用全概率公式来计算概率密度函数. 

例 3.14 你家离城铁车站比较近.已知从早晨6:00开始，每一刻钟有一列车进入城 
铁车站.而你步行到达城铁车站的时刻为 7:10 到 7:30 之间，并且到达时刻是 [7:10, 
7:30] 上均匀分布的随机变量.求你在车站上等车时间的概率密度函数. 

记 X 为你到达车站的时刻， X 的分布为 [7:10, 7:30] 上均匀随机变量（见图 
3.15a). 记 Y 为等待时间.我们利用全概率公式计算 F 的概率密度函数.记 

A = {7:10 彡 X < 7:15} = { 你赶上 7:15 的车}， 

B = {7:15 < X 《 7:30} = { 你赶上 7:30 的车 }. 

事件 4 发生的条件下，你到达车站的时刻 X 是在 [7:10,7:15] 上均勻随机变量.这 
样你等待时间 y 是在 0 分到 5 分之间的均勻随机变量（见图 3.15b). 类似地，在 S 
的条件之下， y 是在 0 分到 15 分之间的均匀随机变量（见图 3.15c). 利用全概率公 
式的变形， F 的概率密度函数为 

fv ( y ) = P ( A ) f Y \ A ( y ) + 

(见图 3.15d). 这样 

,,,11 3 1 1 

^(2/) = 4'5 + 4'l5 = T0 J 

•My) = 去 .0+ 聲 • 吝 = ▲, 5 < y ^ 15. □ 



㈦ ⑷ 

图 3.15 例 3.14 中的概率密度函数和 /y 
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3.5.2 —个 随机变量对另一个随机变量的条件 

设 X 和 F 为联合连续的随机变量，其联合概率密度函数为 f x ， Y ( x , y ). 对任 
何满足 / y (2/) > 0的 y 值，在给定 Y = y 的情况下， X 的条件概率密度函数由下式 
定义： 


fx \ v { x \ y ) = 


fx , v ( x , y ) 

My )' 


这个定义与离散情况下的公式 Px\Y(x\y)=p xx (x,y)/p Y (y) 完全相似. 

在考虑条件概率密度函数的时候，最好将2/值固定下来，并将看 
成 rr 的函数.作为： r 的函数，条件概率密度函数 f x [ Y ( x \ y ) 与联合概率密度函 
数 fx , v ( x , y ) 具有相同的形状，这是因为它们仅相差一个与 a ; 无关的常数因子 
/ y ( y ) (见图 3.16). 另外， 


fx , y { x , y ) = EP ( Ci )/ x ， y | Ci ( a ;， y ). 


暗示了归一化性质 


fx \ v ( x \ y)dx = 1 


所以，对任何 y 值， f x \Y{x\y) 是一个合格的概率密度函数. 


1 / 2 _ 


/^y(43.5) 

VW2.5f 




图 3.16 条件概率密度函数 f X \ y { x \ y ) 的直观解释.设 X 和 Y 的联合概率密度函数是在 S 
上的均勻概率密度函数.对固定的 y 值，我们只需将联合概率密度函数沿 Y = j /这 
一片进行归一化，就可以得到1 


例 3.15 (圆上的均匀概率密度函数）本在玩一个 
掷飞标游戏，靶是一个半径为 r 的圆板（见图 3.17). 
我们假定飞标总是掷向目标，而每一个落点 ( x , y ) 
是等可 能的. 所以作为落点的 （ X ， F ) 的联合概率 
密度函数是圆上的均勻概率密度函数.根据例3.9, 
X 和 F 的联合概率密度函数为 

= 若在圆内， 

lo ， 其他， 



图 3.17 例 3.15 中的圆形靶 
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{ 忐，若〜 2 以， 

\ o ， 其他. 


现在计算条件概率密度函数 fx\Y(x\y). 为此先计算边缘概率密度函数 f Y (y). 
对于 | y | > r ， f Y ( y ) = 0. 对于 ly | < r , 通过下列计算得到 fy(y) 的值： 

fr(y) = [ fx,Y(x,y)dx 

J — oo 


= ^ L +V ^ dx 



= ~ 2 ^ r 2 ~y 2 ^ \y\ ^ r - 

注意， y 的边缘概率密度函数不是均匀的. 
x 的条件概率密度函数为 


fx \ v ( x \ y ) = 


fx , y { x , y ) 

fy ( y ) 


^ 1 

V ^ 2 - y 2 


x 2 + y 2 ^ r 2 . 


这样，对固定的 J /, 条件概率密度函数 f X \ Y 是均勻的概率密度函数. 口 

现在来解释条件概率密度函数的概率意义.令&和 <5 2 是两个小的正数，考虑 
条件 S = {2 /彡 y 彡 y +如}.我们有 


P(x ^ X < x + (5 i|y < Y ^y + S 2 ) = 




P(x ^ X ^ x + 6 i,y ^y + 5 2 ,) 
P(y ^y + S 2 ,) 
fx,Y{x,y)6!6 2 
fr{y)^2 


= fx \ y { x \ y ) 6 i . 


换言之， / x | y ( x | y )<5 i 就是在给定 Y e [ y,y + 5 X \ 的条件之下， X 属于小的区间 
[ x^x + S ^ 的概率.由于 fxwix ^ 并不依赖于如，我们可以将 / x | r ( x | y ) di 认为 
是当5 2 — 0的极限情况，即 

P ( x ^ X^x + S 1 \Y = y )^ f X \ Y { x \ y ) 8 u { 8 X 较小)， 


更一般地, 


P(X eA\Y = y )= / f xlY ( x \ y ) dx . 
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在第1章中，给定零概率事件 Y = y , 相应的条件概率是没有定义的.但是,上述公 
式给出了以零概率事件为条件的条件概率的一个自然的定义.此外，条件概率密度 
函数 fx\Y(x\y) 可以解释为 X 的在给定 y = 2 / 之下的概率律. 

正如离散情况一样，我们可以利用条件概率密度函数 fx\Y(x\y) 和边缘概率密 
度函数知计算相应的联合概率密度函数 f x ， Y . 事实上，为了刻画一个概率律，我 
们并不需要直接列出联合概率密度函数 f x ， Y , 通常只需先给出 F 的概率律 / y , 然 
后给出已知 F = 2 /的情况下 X 的（条件）概率密度函数 f xlY (x\y). 

例 3.16 一辆汽车正在通过交通测速雷达，汽车的车速是一个随机变量 X. 通常 
假定 X 是一个指数随机变量，其平均值为每小时 50 英里.而测速雷达的测量值 F 
是带有误差的.测量误差为正态随机变量，其均值为0,标准差为车速的 1/10. X 
和 y 的联合概率密度函数是什么？ 

根据题意， X 的边缘概率密度函数为 


fx ( x ) = 


而对于固定的 x = 0：,测量值 y 的条件概率密度函数为正态概率密度函数，其期 
望为 a :, 方差为 x 2 /100. 这样 


( l /50) e - 〜 50 ，若;0 0 
0， 其他. 


fv \ x ( y \ x ) = 


1 c -(v-x) 2 /(2x 2 /100) 

\/2k(x/10) 


从而， X 和 F 的联合概率密度函数为 


fx , v ( x , y ) = fx { x ) f Y \ x { y \ x ) 


^ e ~ X/5 °^ e ~ 50(y ~ X)2/X ^ 

0， 


若 rc 彡 0 ，y e (- 00 , 00 ), 
其他. 


□ 


以另一个随机变量为条件的条件概率密度函数 

设 X 和 y 为联合连续的随机变量，其联合密度函数为 f X , y . 

• x 和 y 的联合、边缘和条件概率密度函数是相互关联的.它们的关系用 
下面的公式表示 

fx , y ( x , y ) = fY(y)fx\Y{x\y), 

fx(x) = f fY(y)fx\Y{x\y)dy. 

J —OO 

条件概率密度 fx \ y { x \ y ) 只在集合 { y \ f Y ( y ) > 0} 上有定义. 
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• 关于条件概率，我们有 

P(X e A\Y = y) = J^fx\Y(x\y)dx. 


对于多个随机变量的情况，其推广是很自然的.例如可定义如下的条件概率密 
度： 

fx,Ylz(xM^)= fX ' Y f Z z { ^ ) V，Z \ 对一切 /z ⑷ >0成立， 
fx\vAAy,z) = fX fh ) ,对一切 fY,z(y,^)>o 成立. 

对于密度函数，相应的乘法规则也是成 立的： 

fx,Y,z{x,y,z) = fx\Y,zi x \y^ z )fv\z(y\z)fz{z). 

本节中的其他公式，也可推广到多个变量的情况. 

3.5.3 条件期望 

对于连续随机变量 X, 给定事件 A 的条件期望 E[X|A] 的定义与无条件期望 
的定义相似，不过现在我们利用条件分布密度函数 f X \A 来定义.类似地，条件期望 
E[X\Y = y] 是通过条件概率密度函数 f xlY 进行定义的.关于期望的各种性质可以 
原封不动地搬到条件期望中来.要注意的是，此处所有的公式与离散情况的公式是 
完全相似的，只是将离散情况下的求和号变成积分号，分布列改成概率密度函数. 


条件期望性质的小结 

记 X 和 F 为联合连续的随机变量， A 是满足 P(A) > 0 的事件. 
• X 在给定事件4之下的条件期望由下式定义 

E 剛=乂°° xf x]A (x)dx, 

给定 F = 2/之下的条件期望由下式定义 

m\Y = y' = j : xf x]Y (x\y)dx. 

• 期望规则仍然 有效： 

E[ S (X)|4 = 乂°° g(x)f xlA (x)dx, 

E[p(X)|F = y] = f g{x)f X \ Y {x\y)dx. 

J — oo 
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• 全期望 定理： 设4 A 2 ，… ，人为 互不相容的 n 个事件，对每个 P (^) > 
0,并且这些事件形成样本空间的一个分割.则 

i=l 


相似地， x 

m] = /°° E[X|y = y}f Y (y)dy. 

• 涉及几个随机变量的函数的情况，具有完全相似的结果.例如 
E[g(X,Y)\Y = y} = J g(X,Y)f xl y(x\y)dx, 

E[g(X,Y)}= J E[g(X,Y)\Y = y}f Y (y)dy. 


关于期望规则的证明与无条件期望规则的证明完全相同，在此不予重复论证. 
现在我们验证全期望定理.对于第一个公式，利用全概率公式 


i=l 

在两边乘: r ， 然后在 (- oo , oo ) 上积分，便得到第一个全期望定理的公式. 
关于全期望定理的第二个公式，可从下面一系列等式 得到： 

E[X\Y = y}f Y (y)dy = 厂 [厂 xf xlY (x\y)dx\ f Y (y)dy 
J — oo J — oo L «/ —oo 」 

=f [ xfx\ Y (x\y)fY{y)dxdy 
J — oo J — oo 

= / / xfx,y(x,y)dxdy 

= 尸 :[7°^(^+ 

= J xfx(x)dx 
= E[X]. 


全期望定理可用于随机变量的期望、方差和和各阶矩的计算. 

例 3.17 (阶梯形概率密度函数的均值和方差）假定 X 的概率密度函数为下列的 
阶梯函数 
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{ 1/3，若0 < a ; < 1, 

2/3,若 1<“2, 

0，其他， 

(见图 3.18). 现在记 

Ai = {X 落入第一个区间[0, 1]} 

A 2 = {X 落入第二个区间 (1,2]} 

利用 X 的概率密度函数，得到 

P(Ai) = 乂 fx(x)dx = P(A 2 ) = 乂 fx{x)dx = 

此外，我们还可以利用 X 的条件概率密度函数计算叉在 Ai 和 A 2 之条件下的均 
值和二阶矩.由于 / x | Al 和 f x { A 2 都是均匀概率密度函数，从例 3.4 的结论可知， 

E [驯=鲁， E [ X \ A 2 ] = | 

E [ xVi ] = l ， m 2 \M = 

现在利用全期望定理，得到 

E[X] = PiA^ElXlA,} + P ⑹ E[X|A 2 ] = i •臺 + 昼 . 警=【 

E[X 2 ] = P(A 1 )E[X 2 |^l 1 ]+ P ( A 2 ) E [ X 2 \ A 2 ] = + = 

X 的方差为 

va r ( X )= E [^]-( Em )2 = f -| = H . 

本例的方法可以推广到多于两段的阶梯形概率密度函数的期望和方差的计算. □ 
3.5.4 独立性 

与离散的情况完全相似，若 x 和 y 为联合概率密度函数是它们各自的边缘概 
率密度函数的乘积，即 

fx,y{x,y) = fx(x)fv(y), 对一切: r ,?/ 成立. 

则称 X 和 y 相互独立.比较公式 fx , Y ( x , y ) = f xlY (x\y)f Y (y) 可知，独立性条件 
与下式是等 价的： 

fx\Y(x\y) = fx(x), 对一切 a ; 和满足 f Y (y) > 0的 j / 成立. 
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基于对称性，下列条件也与独立性条件 等价： 

fY\x(y\x) = fv ( y ), 对一切?/ 和满足 fx { x ) > 0 的 a; 成立. 

自然地，两个随机变量的相互独立性的概念可以推广到多个随机变量相互独立性. 
例如设和 Z 为三个联合连续的随机变量.若它们的联合密度函数具有下面 
的表达式 

fx , Y , z { x , y , z ) = fx ( x ) f Y ( y ) fz { z ), 对一切 a :, y , 2 ：成立， 

则称它们是相互独立的. 

例 3.18 (独立的正态随机变量）设 x 和 y 是相互独立的正态随机变量，其期望 
和方差分别为如，化和它们的联合分布密度函数为 

fx ， Y(X ， V) = fx(X)fY ， 2^ eXP {-^2^- 

联合分布密度函数的形状像一口钟，但是这口钟不是圆形的钟， 在: r 轴和 y 轴方向 
上的宽度分别与％和％成正比.为了对密度函数有一个直观的了解，我们考虑这 
口钟的等髙线，即: c ， y 平面上，密度函数等于某个常数的点的集合.这些等高线可 
以由下列方程 表示： 

+ - ( - " - :玄 )2 =常数. 

2吋 

这些等高线都是以 ( fx x ^ y ) 为中心的椭圆，并且分别以 z 轴和 y 轴为长轴和短轴 
(见图 3.19). 哪个轴为长轴，要看 h 和％的大小. □ 



图 3.19 相互独立的正态随机变量 X 和 y 的联合密度函数的等髙线，分布的期望和方差分别 
为化,〜和 cr^,ay 

若 X 和 y 相互独立，则任何两个形如 {X e 和 e S } 的事件是相互独 
立的.事实上 
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P(X e 4 和 YeS).= [ f x ,Y(x,y)dydx 

JxeAJyeB 

=/ / fx(x)fy(y)dydx 

JxGA JyeB 

=[fx(x)dx [ f Y (y)dy 
JxeA JyeB 

=P(X G A)P(F G B). 

特别地，独立性蕴涵 

Fx,Y(x,y) =P(X ^x,Y ^y) = P(X ^ a;)P(y ^y) = F x (x)F Y (y). 

这些结论的相反的结论也是成立的，见本章末尾的习题.性质 
Fx,y(x,v) = F x (x)F Y (y) 'i x,y 

可以作为两个随机变量相互独立的一般定义，即使是 X 为离散， F 为连续的情况， 
这个定义也是适用的. 

相似于离散的情况,可以 证明： 若 X 与 y 相互独立,则对任意函数 s 和\下 
式 成立： 

E[ 5 (x)/i(y)] = Eb(x)]E[^(y)]. 

最后，独立随机变量之和的方差等于它们的方差之和. 


连续随机变量的相互独立性 

令 X 和 F 为联合连续的随机变量. 

• 若下列条件 

fx , v { x , y ) = fx { x ) f Y ( y ), 对一切 a；，y 成立， 

则 X 和 y 相互独立. 

• 若 X 和: K 相互独立，则 

E[xy] = E[x]E[r], 

• 对任意函数 p 和/ I ，若 g ( X ) 和 h ( Y ) 相互独立，则 
E[ 9 (X)/ l (F)]=E[ ff (X)]E [/ l (y)]. 

•若 x 和 y 相互独立，则 

var(X + F ) = var ( X ) + var ( F ). 
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3.6 连续贝叶斯准则 

在许多实际问题中，我们会遇到未观察到的对象.用一个随机变量 x 代表这 
种未观察到的量，设其概率密度函数为 fx ( x ). 我们能够观察的量是经过燥声千扰 
的量 y , Y 的分布律是条件分布律，其条件概率密度函数为 f Y \ x { y \ x ). 当 y 的值 
被观察到以后，它包含 X 的多少信息呢？这类问题与 1.4 节处理的推断问题类似, 
在 1.4 节，我们用贝叶斯公式解决推断问题（见图 3.20). 现在唯一的不同之处是我 
们处理的是连续随机变量. 



图 3.20 推断问题的框图.我们有一个未观察到的随机变量X，其概率密度函数 /x 是已知的, 
同时我们得到一个观察随机变量 y， 其条件概率密度函数为 f Y ] x ( y \ x ). 给定 y 的观 
察值 y， 推断问题化解成条件概率密度函数 fx\Y(x\y) 的计算问题 


注意，当观察到事件 Y = y 以后，所有的信息都包含在条件概率密度函数 
/ xyOrlz /) 中.现在只须计算这个条件概率密度函数.利用公式 f x f Ylx = f x , Y = 
1y!x\y 可以得到 

f , ,、 fx { x ) f Y \ x { v \ x ) 

M X \y) = -- My) ■ 

这就是我们所求的公式.与之等价的表达式为 

r ,」..、 fx ( x ) f Y \ x ( y \ x ) 
fxlY{ ly) = 


例 3.19 通用照明公司生产一种灯泡，已知其使用寿命 Y 为指数随机变量，其概 
率密度函数为 \ e -^, y >0. 按过往经验，在任意给定的一天参数 A 实际上是一个 
随机变量，其概率密度函数为区间 [1,3/2] 上的均匀分布.现在取一只灯泡进行试 
验，得到灯泡的寿命数据.得到数据以后，对于 A 的分布有什么新的认识？ 

我们将 A 看成一个随机变量 A , 作为对 A 的初始认识， A 的概率密度函数是 


/ a ( A ) =2, 1 < A ^ 3/2. 

当得到数据 2 /以后，关于 A 的信息包含于条件概率密度函数 / A ,y(A|y) 中，利用连 
续贝叶斯准则，得到 
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3.6.1 关于离散随机变量的推断 

在实际问题中，未观察到的随机变量可能是离散的随机变量.例如，在通信问 
题中传输的信号是一个二进制的信号，经过传输以后，混入的噪声是正态随机变量， 
这样，观测到的随机变量就是连续的随机 变量； 或者在医疗诊断中，我们观察到的 
量是也是连续的测量值，例如体温或血液样本中的指标.这种情况下我们需要将贝 
叶斯准则作适当的改变. 

现在我们研究一种特殊情况，未观察到的是一个事件 A 我们不知道 A 是否 
发生了.事件4的概率 P ( A ) 是已知的.设 F 是一个连续的随机变量，并且假定条 
件概率密度函数 jV | A ( y ) 和 f YlAc ( y ) 是已知的.我们感兴趣的是事件 A 的条件概 
率 P ( A\Y = y ). 这个量代表得到观察值 y 以后关于事件4的信息. 

由于事件= y } 是一个零概率事件,我们转而考虑事件 {y < y < y + 5}，其 
中5是一个很小的正数，然后令 <5趋向于 0. 利用贝叶斯准则，并令 f Y ( y ) > 0,我 
们得到 


P ( A\Y = y )^ P ( A \ y ^ Y^y + S ) 

P ( A ) P ( y^Y ^y + 5\ A ) 
— P ( y ^ Y^y + 5) 

… m ) f Y \ A ( y)S 
〜 fY(y)S 
P(A)fr\A(y) 
fr(y) 

利用全概率公式，可将上式的分母写成 

fy(y) = P(A)fY\ A (y) + P(A c )f Y \ A ^y), 


这样，得到 


P (耶 = y ) = 


m ) fy \ A ( y ) 

P^)fY\A(y) + P(A c )fY\A^y) 


现在令事件 A 具有形式 {TV = n }， 其中 AT 是一个离散随机变量,代表未观察 
的随机变量. 记 p N 为 N 的分布列.令 y 为连续随机变量,对任意 7 V 的取值 n，F 
具有条件概率密度函数 f Y \ N ( y \ n ). 这样上面的公式变成 


P(N = n\Y = y) = PN(n l fY ^ y]n) . 

fviy) 


利用下面的全概率定理 


fy(y) = ^2pN(i)fY\N{y\i), 



得到 
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13, '7 iv 、 PN(n)f Y \n(y\n) 

P{N = n\Y = y) = — - ! - . 

2_^PN{i)fY\N(y\i) 

例 3.20 (信号检测）设 S 是一个只取两个值的 信号. 记 PCS = 1) = p 和 P (5 = 
-1) = 1 - p . 在接收端，得到的信号为 F = AT + 其中 iV 是一个正态噪声，期望 
为0,方差为1，并且与 S 相互独立.当观察到的信号为2 / 的时候 ， S = 1的概率是 
多少？ 

对于给定的 5 = S , F 是一个正态随机变量，期望为 S ， 方差为 1. 应用刚才得 
到的公式 


P ( S = l\Y = y ) = 


Ps ( 1 )/ y | g ( j /| l ) 

fv ( v ) 


^ k e ~ 


(y-i) 2 /2 


将上式简化得 


P(S = l\Y = y ) = 


_^ e -(!/-l) 2 /2 + iZ^ e _(2/+l) 2 /2 
\/2it \^ 2 k 


pe y 


pev + (1 — p ) e ~ y ' 


注意， P(S = l|y = y ) 当 y — — oo 时趋于0,当 y — oo 时趋于1， y 在实数轴上变 
化时， P(S = 1 |Y = y ) 是 y 的严格上升函数，这符合直观的理解 • □ 

3.6.2 基于离散观察值的推断 

与前面的情况相反，现在观察值是离散的.我们可以反解前面的关于 P ( A\Y = 
y ) 的公式，得到 


fy\A(y) = 


f A ( y ) P ( A\Y = y ) 


其相应的等价的表达式为 


J fY(t)P(A\Y = t)dt 

这个公式可以用于对 f 的 推断. 当事件 a 发生的时候，全部关于 y 的信息都包含 
在这个条件密 度中. 当事件 A 具有 {iV = n } 的形式的时候，可以得到相应的公式， 
其中 iV 是一个观察到的离散随机变量，该离散随机变量在条件概率 PN / Y { nl V )y 
依赖于 F . 
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连续随机变量的贝叶斯准则 

令 F 为连续的随机变量. 

• 若 X 为连续随机变量，我们有 


fx\Y(x\y)fy(y) = fx(x)f Y \x(y\x), 


和 


}x\y{x\v) = 


fx ( x ) f Y \ x ( y \ x ) 

fv ( y ) 


fx ( x ) f Y \ x ( y \ x ) 


• 若 w 为离散随机变量，我们有 

f Y ( y ) P(N = n\Y = y ) = pw ( n )/ y | JV ( y | n ), 
得到的贝叶斯公式为 


P(N = n\Y = y ) = 


PN{n)f Y \ N {y\n) 

^ My) 


PN(n)f Y \N(y\n) 

T,iPN(i)fY\N(y\i) 


和 


fv\N{y\n)= 


f Y ( y ) P(N = n\Y = y ) 


f Y ( y ) P(N = n\Y = y ) 


卽 ㈨ / 二 / y ⑴ P(W = n|Y = t)dr 

对于事件 糸关于 P 04 |F = 2 /) 和 f Y ] A ( y ) 具有类似的贝叶斯公式. 


3.7 小结和讨论 

通常用概率密度函数来刻画连续随机变量.连续随机变量的概率密度函数用 
于计算由随机变量刻画的事件.概率密度函数与离散情况下的分布列的作用完全相 
同，唯一的区别是计算概率的时候，它使用积分计算，而离散的情况下使用求和进 
行计算.联合概率密度函数的作用与离散情况下的联合分布列一样，均用于计算由 
多个随机变量刻画的事件的 概率. 条件概率密度函数用于计算给定条件随机变量的 
值的情况下的条件概率.条件概率的一个重要的应用是推断问题.本章介绍了各种 
各样的用于推断的贝叶斯准则. 

在概率模型中，有许多十分重要的连续随机变量.本章介绍了几个分布，并且 
在下面列出了它们的重要的特性 指标： 期望和方差. 
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连续随机变量的某些结果 
[ a ， b ] 上的连续均匀随机变量 

„ ,、 f 7 -, 若 a ^ x ^b, 

fx ( x ) = < b - a 

lo , 其他， 

nX] = ^, var(X) = ^l! 

分布参数为 A 的指数随机变量 




E[X] = 去， var(X) = 

分布参数为 M 和的正态随机变量 

fx { x ) = 丄 6 -(”) 2 /咖 2 )， 

E[X] = " ， var(X) = a 2 . 


本章也引入了分布函数的概念.分布函数可以刻画一般的随机变量,它涵盖了 
连续和离散的随机变量，也可用于刻画既非连续又非离散的随机变量.因此分布函 
数的概念更加一般.在离散的情况下，我们可将分布函数进行差分，得到分 布列; 在 
连续情况下，将分布函数微分，得到概率密度函数. 


1 — e - k ， 若2；>0, 
0， 其他， 


fx { x ) 


Fx ( x ) 


习 题 


3.1 节连续随机变量和概率密度函数 

1•设 X 为区间[0, 1] 上的均匀分布的随机变量.考虑随机变量 F = g ( X ), 其中 


9{x) = 


若 a : < 1/3, 
若 ; r > 1/3. 


首先求出 F 的概率密度函数，然后利用期望的计算公式求出 K 的期望.用期望规则验 
证计算结果. 

2. 拉普拉斯随机变量 .设 X 的概率密度函数为 
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其中 A 为分布的正参数.验证 / x 的归一化条件，并计算 X 的均值和方差. 

3.* 对于离散或连续随机变量 X ，证明下式成立 

E[X] = 乂 °° P(X > x)dx- j: P{X < -x)dx. 

解先假定 X 是连续随机变量.我们有 

j: P(X> x)dx = j: (J: fx(y)dy^ dx 

=j: (J: Mv)dx) d V 

=j 。 fx(y) (J: dx) dy 
= J o Vfx{y)dy, 

其中第二个等式是交换积分次序的结果，在交换次序的过程中利用了集合等式 {(x,y)\ 0 ^ 
x < oo,x < oo} = {( x ， y )|0 < 00 }. 类似地，可以证明 


厂 P(X< -x)dx = - 厂 yfY(y)dy. 

J 0 J—00 


利用两个等式，可以得到所需的结果. 
其次，设 X 是离散随机变量，此时 


J P(x > x)dx = J dx 

= y2( [ Px(y)dx) 

y>0 / 

= ^ 0 PX { y ) Uo dX ) 

= ^2ypx{y), 


其余部分的证明与连续情况完全相似. 
4.* 证明下列期望 规则： 

E[g(X)] = 


g{x)f x {x)dx, 


其中 fx { x ) 是连续随机变量 X 的概率密度函数. 
解将函数3写成两个非负函数 的差： 


g{x) = g + {x)~ g~{x), 
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其中 g + ( x ) = max { p ( x ),0}, g ~( x ) = max {- g ( a :),0}. 对于 t ^ 0, g ( x ) > f 与 g ^( x ) > t 
是等价的. 

现在利用习题 3 的结果 


E [ ff ( X )] = J o °°P(g(X)> t)dt- J%(g{X) < -t)dt. 

上式右边的第一项等于 

f f fx(x)dxdt= ( f fx(x)dtdx= f g + (x)f x (x)dx. 

J{x\g(x)>t} J~oo J{t\0^t<g(x)} J — oo 

利用对称性，右边的第二项有 

[ P(5p0 < ~t)dt = f g~(x)fx{x)dx. 

J 0 J —oo 

将两个结果合并，得到 

E[^(X)] = f g + (x)fx(x)dx- ( g-(x)fx(x)dx= [ g(x)fx(x)dx. 
«/—oo J —oo J —oo 


3.2 节分布函数 

5. 按照均匀分布律，在一个三角形中随机地取一个点.设已知三角形的高，求这个点到底边 
的距离 X 的分布函数和概率密度函数. 

6. 简去银行取款，有1个或0个顾客在她前面，这两种情况是等可能的.已知一个顾客的 
服务时间是一个指数随机 变量， 参数为 A . 简等待时间的分布函数是什么？ 

7. 艾温在进行投飞标游戏，飞标的耙是一块半径为 r 的圆板.记 X 为飞标的落点到靶心的 
距离.假定落点在靶板上均勻地分布. 

(a) 求出久的概率密度函数、均值和方差. 

( b ) 靶上画了一个半径为 f 的同 心圆. 若 X 孓 t , 艾温的得分为 S = 1/ X , 其他情况 
S = 0 .求出 S 的分布函数 . S 是不是连续随机变量？ 

8•设 f 和 z 是两个连续随机变量.随机变量 x 以概率 p 等于 y ， 以概率1 - p 等于 Z . 
(a) 证明 X 的概率密度函数为 


fx { x ) = pf Y ( x ) + { l - p ) fz ( x ). 


( b ) 求出双边指数随机变量的分布函数，双边指数随机变量的概率密度函数为 


/养卜' * x<0 ， 

l ( l - p ) Ae -' 若 a ^ O ， 

其中 A > 0, 0 < p < 1. 

9 .*混合随机 变量. 有时候，一个概率模型可以看成一个离散随机变量 Y 和一个连续随机变 
量 z 的混合.例如， x 以概率 P 取 y 值，以概率1 - P 取 z 值.这样，称 x 为混 合随机 
变量, 利用全概率公式可得到 x 的分布函数 
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Fx(x)=P(X<t) 

= pP{Y < x ) + (1 - p ) P(Z ^ x ) 
= pF Y ( x ) + (1 - p ) Fz ( x ). 


通过全期望定理，可求得 X 的期望值 

E [ X ]= pE [ Y ] + ( l - p ) E [ Z }. 

艾尔家附近有一个公共汽车站和一个出租汽车站，两个站是在一起的.艾尔出门的 
时候，若车站有出租车等着（这种机会的概率为 2/3), 他就上出 租车； 不然他就在站上等 
车，来出租车就上出租车，来公共汽车就上公共汽车，先到先上.己知出租车将在0 〜 10 
分钟内到达，等待时间是在 （0,10) 分钟之间均勻分布的.而等待下一趟公共汽车的时间 
是5分钟.求艾尔等待时间的分布函数和期望值. 

解记 A 表示当艾尔到达车站的时候有一辆出租车等着他或者他在车站上等5分钟以 
后，登上公共汽车.当艾尔必须等车的条件下，艾尔登上公共汽车的概率为 
P (出租车在5分钟后到达 ）=1/2. 


艾尔的等车时间 X 是一个混合随机变量.以概率 

p (々 =§+ m 

等于离散随机变量 y (相当于或者出租车在站上等着或者登上公共汽车) . Y 的分布列为 

r ^_ 

3 P ⑷’ 


py { y ) = 


.6 P ⑷’ 


若 y = 0, 
若 y = 5, 


[通过下列计算得到 py(0) 的值: 


Py(0) = P(Y = 0| A ) : 


若 y = o, 
若 y = 5. 


p(y = o,A) 


P ( A ) 3 P ( A ) _ 

py (5) 的计算是类似的 .] 与概率 1 - P (4) 相对应的随机变量 Z (相应于到达车站以后， 
必须等车，但5分钟以前到达一辆出租车）的分布密度为 


fz(z) = 



若0《 Z 彡5, 
其他. 


这样， X 的分布函数 Fx ( x ) = P ( A ) F y ( x ) + (1 — P ( A )) F z ( x ) 由下式给出 
0， 若2： < 0， 
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艾尔的平均等车时间为 

m\ = P(A)E[Y\ + (1- P(A))E[Z] = |.A. 5 + -.- = g. 

10.* 模拟一个连续随机 变量. 计算机有一个产生 [0, 1] 上均勻分布的随机变量 [/. 利用这个 
程序可以产生一个连续随机变量 X ，而 X 的分布函数为设 (7 产生一个数 W ，相 
& X 的取值 z 为满足方程 F ( x ) = u 的解.为简单起见，我们假定分布函数 F ( a :) 在 
5 = { x |0< F(x) < 1} 上严格上升.这个假定条件可以保证对每一个 u e (0, 1)，唯一地 
对应一个 a :， 使得 F(x) = u. 

( a ) 证明如此生成的 X ,其分布的确为给定的 F(x). 

( b ) 利用这种方法模拟产生一个指数随机变量，其参数为入. 

( c ) 如何利用这种方法模拟产生一个离散的整数值随机变量？ 

解 

( a ) 根据产生规则, X 和 [/ 应该满足关系式 F(X) = U. 由于 F 是单调的，对每一个 a : 
的值， 

X 的充要条件为 F{X) ^ F(x). 

这样 

P(X ^x) = P(F(X) ^ F(x)) = P(U^ F(x)) = F(x). 


上式的最后一个等式是利用了 [/ 是一个均匀随机变量的特性.这样 X 的分布函数 
就是事先确定的 F(X). 

( b ) 指数分布具有形式 F(x) = 1 - e~ Xx ,x > 0. 为生成 X ，首先产生一个单位区间 
(0,1) 上的均勻随机变量 [/ 的一个值之后只需解方程1 - e - Aa: = u. 这个方程 
的解为 a : = — ln ( l - M )/ A . ① 

( c ) 设 F 是离散的取整数值的随机变量的分布 函数. 对于每一个 u e (0,1), 存在唯一 
的一个整数 a : u ， 满足 F(x u -1)<U^ F{x u ). 这相当于定义了随机变量[/的一 
个函数 X . 对每一个整数 fc , 

P(X = k)= P(F(k -1)<U^ F{k)) = F(k)~F(k~l). 

如此构造的随机变量 X 的分布函数就是事先指定的 R 

3.3 节正态随机变量 

11•设 y 和 F 是两个正态随机变量，其均值分别为0和1,方差分别为1和 4. 

( a ) 求 P(X < 1.5) 和 P(X ^ 一 1). 

( b ) 求 （Y - I )/ 2 的概率密度函数. 

( C ) 求 p(-i ^ y < 1). 

I 2 •设 X 是正态随机变量，其均值为0,标准差为 a . 利用正态分布函数表计算 P(X > fc < T ) 
和 P (| X | ^ ka), k = 1,2,3. 


①与 a : 相应的随机变量 X 的分布函数为 F [ x ) = 1 - e - A : c , x >0. ——译者注 
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此处，第三个等式是将积分变成极坐标中的积分的结果.第五个等式是作变量替换 u = 
r 2 /2 的结果.这样我们得到 



现在利用变量替换 u = ( x - n )/ a , 得到 

"(和 /I 士 _ (” )2/(2< "‘/二 ^ e_U2/2dU = 1 - 

3.4 节多个随机变量的联合概率密度 

15. 在半圆周 {( x , y )\ x 2 + y 2 ^ r , y > 0 } 内按均匀分布随机地取一个点 （ X ， y )( 此时 r > 0, 
是固定的正数). 

( i ) 求出 ( X , Y ) 的联合概率密度函数. 

( ii ) 求出 y 的边缘概率密度函数，并利用它求出 E [ y ]. 

( iii ) 不用边缘概率密度函数，利用期望规则直接计算 E [ y ], 

16. 考虑下面的蒲丰抛针问题（例 3 . 11 ) 的变形，这是拉普拉斯研究过的问题.在坐标平面上 
画上格子，水平线之间的距离为 a , 垂直线之间的距离为 6. 现在往平面上丢一根长度为 
I 的针，不妨假定 Z < a 和 Z < b 成立.针与格子相交的边数的期望值是多少？针与至少 
一条边相交的概率是多少？ 


13. 设某个城市的气温为正态随机变量,其均值和标准差均为 10° C . 问在给定的时刻，其气 
温低于59° F 的概率有多大？ 

14.* 证明正态概率密度函数的归一化性质. 提示：积分/ e 4 2/2 da ; 的值等于积分 

厂厂 

J —oo J —oo 

的平方根，而后面的积分可以通过积分变换化成极坐标系内的积分 • 

解 注意下面的 等式： 
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17/ 利用另一个随 机变置 的样本估计一个随机变置的期望值 .设 Fi,--.,y n 为来自概率密度 
函数 / y 的一个样本 . ♦ S % Y 的可能值的集合，即 S = {y\fY(y) > 0} •令 X 的概率 
密度函数为 / x . 假定对一切 y 0 均有 f x (y) = 0. 考虑随机变量 


证明 

解 我们有 




E [ Z ] = E [ X ]. 


E [ Yi hM\ = L y h& Mv)dy = Is y/x(y)d2/ = E[X] - 

这样， n 

释适卜稱 

3.5 节条件 

18 .设 X 是一个随机变量，其概率密度函数为 


fx ( x ) = 



若 1 < S < 3, 
其他. 


令4 = {X 彡2}_ 

( a ) 计算 EpaPMh / xOc )* E [ X \ A }. 

( b ) 令 y = X 2 .计算 E [ y ] 和 var ( F ). 

19.设 X 是一个随机变量，其概率密度函数为 

fx { x ) = 


CX 2 , 若 1 < X < 2, 
0，其他. 


( a ) 确定常数 C . 

( b ) 令 A = {X > 1.5}. 计算 P 0) 和 X 在4发生的条件下的条件概率密度函数. 

( c ) 令 F = X 2 .计算 K 在 A 发生的条件下的条件期望和条件方差. 

20. 一个粗心的教授错误地将两个学生的答疑时间安排在了同一时刻.已知两位同学的答疑 
时间长度是两个相互独立并且同分布的随机变量.其共同的分布是指数分布，期望值为 
30分钟.第一个学生按时到达 ， 5分钟以后，第二个学生也到达.从第一个学生到达起直 
到第二个学生离开所需时间的期望值是 多少？ 

21 - 我们从一根长度为 Z 的杆开始，在杆上按均匀分布找一个点，以这个点为切断点，将杆分 
为两半.我们保留杆的左边部分.设这部分的长度为 X . 对于长度为 X 的这一根秆子, 
重复这一切断的过程，设第二次切断后保留下来的部分的长度为 
( a ) 求出 X ， F 的联合概率密度函数. 
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( b ) 求 y 的边缘概率密度函数. 

( c ) 利用 y 的边缘概率密度函数计算 E [ Y }. 

( d ) 利用关系式 r = x - ( Y / X ) 计算 E [ y ], 

22. 我们有一根长度为1的杆,利用下面3种不同的方法将秆子截成3段. 

( i ) 利用均勻分布在秆子上随机且相互独立地取两个点，在这两个点处将秆子截断. 

( ii ) 首先，在秆子上按均匀分布随机地取一点，在这个点处将秆子截断.然后将右端这一 
截如法炮制，还是按均匀分布随机地找一点，在这个点处将这一截再分成 两段. 

( iii ) 首先,在秆子上按均匀分布随机地取一点，在这个点处将秆子截断.然后将较长的那 
一截如法炮制，还是按均匀分布随机地取一点，在这个点处将这一截再分成两段- 

对这三种方法的每种方法，分别求出截成小段后秆子能组成一个三角形的概率. 

23. 设在直角坐标系中三个点（0,0)，(0，1)和 (1,0) 组成一个三角形.假定 ( X , Y ) 是一个随 
机点的坐标，这个随机点是在三角形上均匀分布的. 

( a ) 找出 X 和 y 的联合概率密度函数. 

( b ) 找出 K 的边缘概率密度函数. 

( C ) 找出 x 的在给定 y 值之下的条件概率密度函数. 

( d ) 求出 E [ X\Y = y ], 利用全期望定理求出 E [ X ] 的依赖于 E [ Y ] 的表达式. 

( e ) 利用对称性求出 E [ X ] 

24. 设在直角坐标系中三个点 （0,0), (1,0) 和 (0,2) 组成一个三角形.假定 ( X , Y ) 是一个随 
机点的坐标，这个随机点是在三角形上均勻分布的（与题 2 3不同，此题中的 X 和 F 是 
不对称的).按题23中的方法求出 E [ X ] 和 E [ y ]. 

25. 设平面上一个随机点的两个坐标为 A ： 和它们是独立同分布的正态随机变量，公共期 
望为0,方差为 ( T 2 . 已知这个点离原点的距离至少为 C •求 X 和 Y 的条件联合概率密度. 

26.* 设 Xx ,--- , X n 为独立随机变量序列.证明公式 

var ( n?=i Xj ) = pr / var ( Xi ) \ _ 
nr = iE [ xf ] - r ” ' 

解我们有 

var fn x ^ = E fn x * 2 l - fi ( 酬 ) 2 
\ i=l / J 

=;^的-台岡足]) 2 

1=1 i=l 

=f[ (var(X 4 ) + (EtX,]) 2 ) - f[ (E [ 不 ] ) 2 . 

1=1 1=1 

再在等式两边用 

n ( epq ]) 2 

i=i 


除，便得到所需的结论. 
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27.* 以随机事件为条件的多元随机变量.设 X 和 F 为联合连续的随机变量，其联合分布密 
度函数为 / x , y . 令 A 是二维平面的一个子集，又令 C = {( X , y ) £ ,4}, 事件 C 满足 
P ( C ) > 0. 定义 


( fx , y ( x , y ) 

/x,y|c(a ： ’y) = j P ( C ) 


若 ( x , y ) e A 
其他. 


( a ) 证明 / x , y | c 是一个合格的联合分布密度函数. 

( b ) 令次 , i = 1,…， n 为二维平面的一个分割.记 G = {( X , Y ) eAi }, 并假定对每一 
个 i ， P ( Ci ) > 0. 导出下列形式的全概率定理. 


fx,Y{x,y) = '^2P(Ci)f x ,Y\c i (x,y). 


28.* 设随机变量 X 具有双边指数概率密度函数 


fx ( x ) = 



若: E 彡0, 
若2： < 0, 


其中 A 和 p 是参数， A>o, P e(o,i). 利用下面的两种方法求 x 的期望和 方差: 

( a ) 利用期望和方差的定义直接计算. 

( b ) 利用全期望定理进行计算. 

解 

⑷ 


E [ X ] 


cfx ( a:)dx 


= I s(l — p ) Xe Xx dx + / xp \ e~ Xx dx 

J -oo J 0 

A + A 
_ 2p~l 

E [ X 2 ] = [°° x 2 fx ( x)dx 


2 (1 — p ) Ae A ： E da : + J x 2 p \ e~ x：E dx 


利用方差的定义，得到 


2(1— P ) , 2 p 

—— A ^ + A ? 


var ( X ) = A_^2p_iy 
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( b ) 记 A = {X > 0}. 利用 X 的概率密度函数的公式，很快得到 P ( A ) = p .在 A 发生 
的条件下， X 的条件分布为指数分布，其参数为 A . 同样在发生的条件下，随机 
变量 - X 也具有指数分布，参数为 _ A . 由此可得 

E 刚=去， E [ X \ A C ] = -i 

和 2 

E[X 2 |7l]=EtX 2 K] = ^. 

再利用全期望定理得到 


E [ X ] = PCA ) E[X | A ] + P (，) E [ X |，] 


= P-!—P 

~ A 入 


E [ X 2 ] = P ( yl ) E [ X 2 | A ] + P (^1 c ) E [ X 2 |>1 c ] 


2p m - p ) 
豆十 A 2 
2 

万， 


最后，得到 


rW = 


务 -㈣ . 


29.* 设 X ， F 和 Z 的联合概率密度函数为 fx.Y.z- 证明乘法 规则： 

fx,y,z{x,y,z) = f X \Y,z{x\y, z)f Y ] Z (y\z)fz(z)- 
解利用条件概率密度函数的定义， 

fx,Y,z(x,y,z) 


fx\Y,z{x\y,z) = 


My’z) ’ 


和 


fy,z{y,z) = f Y \z{y\z)fz(z). 

将两个关系组合便得到三个变量的概率密度函数的乘法规则. 

30.* 贝塔概率密度函数.参数为 《(> 0) 和风> 0) 的贝塔概率密度函数为 


fx{x) 


= — W — 1 ， 若 0 


其他. 


其归一化常数为 


B ( a ,/3)= / x a _1 ( l - x ) ,3 - 1 dx , 
Jo 

B ( a , f3 ) 就是著名的贝塔函数. 
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( a ) 指出对任何 m > 0, X 的 m 阶矩的公式为 

B(a + m , f3 ) 


E[X m ] : 


( b ) 设 a 和/3为正整数，证明 


B(q,/3) 


B ( a ,/ 3 ) - 

( a - l )!(/3- l )! 


因此, 


E[X m ] = 


(a + / 3 ~ l )\ _ 
a(a + 1) … （ct + m — 1) 


(a + P)(a + f3 + 1 ) ■ ■ ■ (a + ^ + m - 1 )' 


(注意：按惯例，0! = 1.) 

解 

( a ) 我们有 

E [r ] = B ^/ 1 W 

( b ) 对于 a = 1 或 /? = 1， 我们可以通过直接积分验算结果.现在讨论一般情况.记 
^，…为独立同分布的随机变量，其公共分布为[0，1]上均勻分布.令 

^ = {^i ^ y a +\ ^ - ^ Y a+ p}. 


由于 a + /? +1个随机变量的各种次序都是等可能的，我们有 

尸⑷： 1 

现在考虑事件 


(a + /3 + l )!' 


B = {max{yi ; ■■- ,y«} < y}, C= {y < min{ya + i,... ,Y a+ p}}. 

利用全概率定理，得到 

P ( 丑 OC)= [ 1 p(BnC\Y = y)f Y (y)dy 
Jo 

=[ P(max{yi, ■■ - ,Y a } min{y a+ i, •■ - ,Y a+0 })dy 
Jo 

= [ P(max{ri 3 ■ ,y«} ^ y)P(y ^ min{y a+ i,- ■ - ,y a+/3 })dy 

Jo 

= [y a (l-yfdy. 

Jo 

由于给定 S 和 C 的条件下，所有 a ! 个… ， Ya 和所有/?!个 K +1 ，… ,Y a+0 
的次序是等概率的，这样 

p (耶门 
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现在将所得到的公式代入方程 


p(yi) = p(s n C)P(^|s n C) 


中，便得到 


(a + /3 + 1)! a !/3! 


y°V - y) 0 dy, 


或 



a!/3! 

(a + ^+1)!' 


这个方程可写成如下 形式: 


B ( a + l ,/3+ l ) = — T , 对所有正整数 a , /3 成立. 
(a + p + lj ! 


31.* 利用模拟求期望值•设 fx { x ) 为某个概率密度函数，它满足下面的 条件： a ，6, C 为三个非 
负数 （a < 6)， fx { x ) 在区间 [ o , 6] 外为0,并且满足 a :/ x (： c ) 《 c 对一切: r 成立.现在以 
如下方式产生 Y i： i = l ,2, ■■- , n ： 由 （ a , 0)，(6,0)， ( a , c ) 和（6, c ) 4个点构成坐标平面上 
的一个矩形，按这个平面上的矩形的均勻分布，产生一个随机点列 (^,^)^ = 1, ••- , n , 
如果 Wi 彡 Vif x ( Vi ), 令 V ； = 1，否则令 K = 0.令 


z = 


K + … +Vn 
n 


证明 

特别地， var ⑻ 
解我们有 


E[2] = var[z] ^ b 


► 0, n — > oo . 


E [ Z ] = E [ yj ] 

= P(Yi = 1) 

=P(Wi 《 Vifx(Vi)) 

fb rvfx(v) i 

叫 'L ^T) dwdv 

J vfx ( v)dv 

— c(b — a ) 

EW . 

c(b — a )' 

随机变量 z 的方差为 

■ ( 幻 = 型=以1 - p ⑺ = D ) . 

n 

由于 P(K = 1)(1 - P(K = 1)) < 1/4,我们得到 var ( Z ) ^ l /(4 n ). 
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32. * 设 X 和 F 为联合连续随机变量，其联合概率密度函数为 fx,Y(x,y). 设对任意实数子集 

yi 和 s ， 事件 x e 乂和事件 YeB 相互独立.指出此时 x 和 y 是相互独立的随机变 

量. 

解对于任意两个实数 Z 和仏利用事件 {X < a :} 和 {F < y } 的相互独立性，得到 
Fx , r ( x , y ) = P(X ^ x,Y ^ y ) = P(X ^ x ) P(Y ^ y ) = F x { x ) F Y { y ). 

对两边求导数，得 

fx , y { x , y ) = ^^-( x , y ) = ^( x )^-( y ) = f x ( x ) f Y ( y ). 

由上式可知，按随机变量 X 和 Y 相互独立之定义，它们是相互独立的. 

33. * 随机数个独立随机变量 的和. 假如你逛了 iV 个商店，其中 AT 是一个随机变量.又设在 

第 i 个商店，你花掉的钱数是故你花掉的总钱数为 

T ~ X\ + X2 + ■ * • + Xn- 

我们假定 iV 是一个离散随机变量，其分布列为已知，而的期望和方差相同，记为 
和 var ( X ). 进一步假定，所有的 Xi 以及 JV 都是相互独立的.指出 

E [ T ] = E [ X ] . E [ iV ] 和 var ( T ) = var ( X ) E [ JV ] + ( E [ X ]) 2 var ( iV ). 

解设 iV = 此时你只进了 i 家商店，在每一家商店，你花钱的平均值为 E [ X \. 这样， 
对所有 i , 

E [ T|JV = i }= zE [ X ], 

现在利用全期望定理，得到 

E [ T ] = ^ P(iV = i ) E [ T|JV = i ] 

i=l 

= f ^ P{N = i ) iE [ X ] 

i=l 

= E [ X ] f ^ iP(N = i ) 

i=l 

= E [ X ]- E [ N ], 

相似地，由不之间的独立性可知， ^[ XiXj ] = ( E [ Xi]) 2 ,Vi /孓这样 

E [ r 2 ] = ^ P[N = i ) E [ T 2 \N = i ] 

2=1 

OO 

= ^ P(AT = j ) E[(Xi + ... + Xjv) 2 |AT = i ] 

i-1 

= f ^ P(N = i ) ( iE [ X 2 ] + i(i - 1)( E [ X ]) 2 ) 
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= E [ X 2 ] f ； iP(N = i ) + ( E [ X ]) 2 f ^ i ( i - 1) P(AT = i ) 

i—1 i=l 

= E [ X 2 ] E [ iV ] + ( E [ X ]) 2 ( E [ JV 2 ] - E [ iV ]) 

= var ( X ) E [ iV ] + ( E [ X ]) 2 E [ iV 2 ]. 

了的方差为 

var ( T ) = E [ T 2 ] - ( E [ T ]) 2 

= var ( X ) E [ iV ] + ( E [ X ]) 2 E [ iV 2 ] - ( E [ X }) 2 ( E [ AT ]) 2 
= var ( X ) E [ iV ] + ( E [ X ]) 2 ( E [ iV 2 ] - ( E [ JV ]) 2 ) 

= var ( X ) E [ iV ] + ( E [ X ]) 2 vax ( iV ). 

注： 在第 4 章中我们将以更抽象的方式得到 E [ r ] 和 vax ( T ) 的公式. 

3.6 节连续贝叶斯准则 


34. 一台有问题的硬币浇铸机所生产的硬币是有缺陷的.在抛掷硬币的试验中正面出现的概 
率 P 是一个随机变量 . P 的概率密度函数是 

fp(p) = 

现在从这批产品中抽取一枚进行抛掷硬币试验，进行独立重复的抛掷. 

( a ) 求出抛掷硬币的时候，正面出现的概率. 

( b ) 已知抛掷一枚硬币后出现正面，求 _ P 的条件概率密度函数. 

( c ) 给定第一次抛掷的结果是出现正面.求第二次抛掷硬币的时候出现正面的条件概率. 
35.* 设 X 和 y 为相互独立的连续随机变量，其概率密度函数分别为和 / y . 令 Z = X+y. 

( a ) 证明 fz \ x { z \ x ) = fv ( z - x ). 提示： 写出给定 X 的条件下 Z 的分布函数，然后求 
导. 

( b ) 假设 X 和 Y 的分布为指数分布，其参数为 A . 求出 X 在给定 Z = Z 之下的条件 
概率密度函数. 

( c ) 假设 a: 和 y 的分布为正态分布，其期望为 0, 方差分别为 d 和 4 .求出 x 在给 
定 z 2之下的条件概率密度函数. 

解 

( a ) 我们有 


pe p , pe [0,1], 
0,其他. 


P(Z ^ z\X = x ) = P(X + y ^ z|X = : r ) 
= p(x + y ^^|x = x) 
= P(x + Y ^ z ) 

= P ( Y ^ z - x ), 


其中第三个等式是由于 X 和 Y 的独立性.两边进行微商，可得所需的结果. 
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( b ) 对于0 < a : < \我们有 

f Y ^( x \ z ) - fz \ x { z \ x ) fx ( x ) _ f Y ( z - x ) fx ( x ) 

/X|Z( 1 ) _ fz ( z ) _ ^ Mz )—~ 

Ae 一入卜忠)入 e _ 入 1 A 2 e- Az 

=~~ Mzj = ~NW 

由上述表达式可知，对固定的作为 ar 的函数 f xlz ( x \ z ) 在0 < a : < z 是一个常 
数，而在区间[0洌外， f x { z ( x \ z ) 显然为0.这样 X 的条件分布是[0,上的均匀 
分布，即 A ： 的条件概率密度函数 f xlz ( x \ z ) = 1 / 2 , xe [0, z ]. 

(C) 我们有 


fx \ z { x \ z ) = 


fY(z-x)fx(z) _ 

~~ Mz )^ - 






我们将注意力集中在指数的幂上，其负部按 rr 配成平方，得到 

包二 . x ) 2 + — = ^ +a y ( x _ za ^ V + ^.( 1 _ ^ 、 

2ag 2al 2aW y ai+^J + 2^ l, 1 + 

这样， X 的条件密度函数具有形式 


如 ㈣ = C ⑷. exp {-^( x - 義 )] ， 

其中 c ( z ) 不依赖于 a ;， c (4 在密度函数中是一个归一化的平衡常数.这样，条件分 
布是正态分布，均值 

E [K = 各， 


方差 
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本章引入一些更深入的内容.我们介绍如下一些有用的 方法： 

( a ) 推导出关于一个或者多个随机变量的函数的 分布； 

( b ) 处理独立随机变量和的问题，包括求和的随机变量的个数目自身也是随机 
的情形； 

( c ) 量化两个随机变量之间的相依程度 • 

为实现这些目标，我们介绍了一些工具，包括矩母函数和卷积，并且我们将细 
化对条件期望概念的理解. 

学习第5 〜 7章时，并不需要本章内容作为基础，因此，在首次阅读本书时可将 
本章视为选读内容.然而，这里讨论的很多概念和方法为概率论和随机过程提供了 
更深入的研究背景，并为应用概率论和随机过程的其他学科提供了有力的工具.但 
是， 4.2 节和 4.3 节所提到的概念，是第8章和第9章中学习统计推断的准备知识. 

4.1 随机变量函数的分布密度函数 

本节考虑连续随机变量 X 的函数 F = g { X ) 的分布密度函数，即在已知 X 的 
概率密度函数 ( PDF ) 的情况下，我们计算 Y 的 PDF (也称 为导出的密度函数) •主 
要考虑如下的两步方法. 


连续随机变量 X 的函数 y = g(X) 的分布密度函数 

(1) 使用如下公式计算 r 的分布函数 ( CDF ) Fy 

F Y ( y )= P ( g ( X )^ y )= [ fx ( x ) dx . 

J{x\g(x)^y} 

⑶对 _FV 求导，得到 7 的 PDF : 

/y(2/) = 脊(办 


例 4 .i 设 x 服从[0, 1] 上的均勻分布，令 y = v ^. 注意，对任意的 y e [0,1]，有 
F Y ( y ) = P(y ( y )= P(VX ( y )= P(X < y 2 ) = y 2 . 


求导，可以得到 
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= 2y ， 

在区间[0, 1] 之外，分布函数 F Y { y ) 是个常数，即当 2 /彡0时， F Y { y ) = 0,而当 y 彡1 
时， F Y { y ) = 1. 所以，求导可以得到：当 y 《[0,1]， f Y ( y ) = 0. □ 

例 4.2 庄驶悠驾车勻速从波士顿前往纽约，两地距离为180英里，速度值服从 
[30,60] (单 位： 英里/小时）区间内的均勻分布.求这段旅程所费时间的 PDF ? 

设 X 是速度 ， F = g ( X ) 是这段旅程所花费的 时间： 

y= 學. 

根据两步法,首先计算 F 的分布函数， 


p(y< 2/ ) = p^< 2/ ) = 

利用 X 的均勻分布性质，即 

\ 1/30，若30 < z < 60, 
fx{x) = ( 

( o , 其他， 

以及相应的分布函数 


因此 


1 0, 若 a ; < 30， 

(x — 30)/30, 若30 < a ; < 60， 

1， 若 ； r > 60. 

Fy(y) - P(7 “） 

=卜：⑺ 

0， 若2/ < 180/60， 

1 — — 30) /30 ,若 180/60 < 2/ < 180/30, 

1, 若 180/30, 

0, 若 y <3, 

2 - 6/ y , 若3 《 y 彡6, 

1， 若 y > 6, 
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(见图 4.1) .然后，对上式进行求导，得到 y 的密度 函数： 

{ 0， 若 y 彡3， 

Q / y 2 , 若3 < 2 / < 6， 口 

0， 若 y 彡6_ 


| PDF f x (x) 


CDF Fxix) 



—- 

/\ , 

1 30 60 i 1 

30 60 ^ 


PDF Mv) 


CDF Fy{y) 



3 6 



V \ 3 6 y 


图 4.1 例 4.2 中 : K = 180/ X 的密度函数的计算过程示意图.箭头方向表示计算步骤 


例 4 .3设 X 是一个随机变量，其密度函数已知.现求 y = g ( X ) = X 2 的密度函 
数.对任意的 y ^ O , 


Fy { y ) = P(Y ^ y ) 

= p(x 2 < y) 

=^ x ( Vy ) - F x {- y / y ), 

因此，对上式进行微分，运用复合函数求导方法， 

My) = - □ 


4.1.1 线性函数 

现在我们重点介绍一类重要和特殊的 情形： y 是 A ： 的线性函数.如图 4.2 中 
的解释，从直观就可以得到我们所需的结论. 
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图 4.2 用的密度函数来表示线性函数 aX + & 的密度函数.图中 a = 2, 6 = 5. 为了 直观， 
第一步，计算的密度函数 . aX 的值域比 X 的值域大，倍数为 a . 所以， aX 的密 
度函数 是将义 的密度函数 f x 在 x 轴的方向上拉长 a 倍.但是，为了使得 aX 
的密度函数 / a x 之下围成的面积是1，必须将 / x 纵轴下拉到原来的 1/ a . 随机变量 
aX + b 与 aX 一样，只是将图形进行平移 6. 因此，我们首先得到的密度函数， 
然后水平平移最后得到的就是随机变量 Y = aX + b 的密度函数.写成公式,就是 

油 )= 击 /x (^)- 

如果 a 是负数，方法是一样的，只是先将 X 的密度函数在横轴进行反射，得到 
f - x . 然后，在横轴和纵轴上分别乘以 |a| 和 l/|a|, 就得到 - a |X| = aX 的密度函数， 
最后进行平移6,就得到 aX + 6的密度函数 



现在证明该公式，我们首先计算 F 的分布函数，然后求导.只证明 a > 0的情 
形 , a < 0时的证明类似. 


Fv { y ) = P(Y ^ y ) 

= P(aX + b < y ) 



对上述等式微分，运用复合函数求导方法，可得 
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油 ) =^ (2/) = l fx (^)' 

例 4.4 (指数随机变量的线性函数） 假设随机变量X服从参数为 A 的指数分布， 
密度函数为 

fx ( x ) = 

其中 A 是正的参数.定义 Y = aX + 6,则 

若 （y —6)/0 0, 

fv ( y ) = { l fl l 

(0， 其他. 

注意，当& = 0, a > 0, y 仍然服从指数分布，参数为 A/a. —般而言， F 可能不是指 
数的.比如，当 a < 0, 6 = 0时， Y 的取值空间在负实 轴上. 口 

例 4.5 (正态随机变量的线性函数） 假设随机变量X服从均值为/X,方差为 a 2 
的正态分布，相应的密度函数为 


Ae _Ax , 若 a: > 0, 
0， 其他， 


定义 y = aX + 6,其中 a，6 是实数且 a / 0,则 


fv { y ) = 


R /x (^) 


|a| V2na 




\/2jt|a|c 


这是均值为 叫 + b , 方差为 aV 2 的正态分布的密度函数，所以随机变量 F 是正态 
的. 口 


4.1.2 单调函数 

线性函数的密度函数的计算方法和公式可以推广到 S 是单调函数的情形.假设 
X 是连续随机变量，且取值空间在一个给定的区间/里，即当4 J ■时， f x ( x )=0. 
现在考虑随机变量 F = g ( X ), 且在区间 i •上，函数 S 是严格单调函数，即 

(a) 严格单调递增：对任意的 a；，：)/ e J, 满足 a： < a/， 则〆 a:) < g { x '); 

(b) 严格单调 递减： 对任意的 AO：' e i ■，满足: r < a/， 则沒㈤> g ( x '). 

进一步地，假设 S 是可微的.它的导数在递增情形时是非负的，在递减情形时 
是非正的. 
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严格单调函数的一个重要性质是它是“可逆的”，也就是说，存在函数/称为 
g 的逆，使得对任意的 xe /, W 

V = 9 {x) 当且仅当 x = h(y). 

比如说，例42中考虑的函数 〆 a :) = 180/ a : 的逆就是 / i ( y ) = 180/y. 这是因为， 
y = 180/ a : 当且仅当 z = 180/ y . 其他例子，比如 

咖=似 + &’ h(y) = 

其中 a 和6是实数，且 a / 0,还有 

g(x) = e ax , h{y) = \ny/a, 

其中 a 是非零实数. 

对于严格单调函数 g ， 使用如下方便的公式来计算 y = g{X) 的密度函数. 

连续随机变量 X 的严格单调函数 F = g(X) 的分布密度函数计 算公式 

假设 S 是严格单调函数，其逆函数/ I 满足： 对 X 的取值空间内任意一点 re , 

V = g{x) 当且仅当 x = h(y). 

而且函数 / l 是可微的，则: K 在支撑集 {y : f Y ( y ) > 0} 内的密度函数是 
fv(y) = fx(h(y))^(y)\. 

现在证明上式.假设 s 是严格递增函数.则 

Fy{y) = P(9(X) < y ) = P(X < h(y)) = F x (h(y)), 

其中第二个等式运用了函数 g 的严格递增性（见图 4.3). 对上式进行微分，并运用 
复合函数微分公式，我们可以得到 

My) = = fx(h(y))^{y). 

因为 S 是严格递增时，函数 h 也是严格递增的，所以它的导数是非 负的： 
dh. . |d/i. .1 

#)=1 石(叫 

这样，就验证了单调递增函数 g 的密度函数公式.当 g 是单调递减时，推导过程是 
类 似的： 
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F Y (y) = P(g(X) (y) = P(X^ h(y)) = 1 - F x (h(y)), 
对上式进行微分,并运用复合函数微分公式就可以证得. 




图 4.3 计算概率 P ( fl ( X ) < y ). 当 g 是严格递增的（左图)，事件 { g ( X ) ^ y } 与事件{ X 《 
h ( y )} 是一样的.当 g 是严格递减时（右图)，事件 { g ( X ) ^ y } 与事件 {X > h ( y )} 
是一样的 

例 4.2 ( 续）我们将上述公式，应用于例 4.2. 在 区间 ; r e [30, 60] 内，吻）= 180/ y , 
所以 

fx(h(y)) = | 芸⑼ 卜罡 . 

所以，当 y e [3, 6] 时，运用密度函数公式可以得到 

这个结果与例 4.2 中得到的结论是一样的. □ 

例 4.6 定义 Y = g(X) = X 2 , 其中 X 服从[0, 1] 区间的均勻分布.在这个区间里, 
9 是严格递增函数，它的逆函数是 _) =力.对任意的 y e [0,1]，有 

所以 

当 ye [0, l ] 时， 

f Y ( y ) = \ 2 ^y 

(0, 其他. 

最后值得注意的是，若用随机变量落入小区间的概率来解释密度函数的意义， 
密度函数公式变得十分直观（见图 4.4 的解释). □ 
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图4. 4 对 s 是严格递增函数时， g(X) 的密度函数公式的解释.考虑区间 [x,x + 8y], 其中心 
时非常小的正数.在映射 5 下，该区间映射到另一个区间[2/，2/ + <5 2 ].因为 ( dg / dx )( x ) 
是 g 在点 x 处的斜率，所以 

I 。恙⑷， 

用逆函数来表述，就是 

6! dh f , 

T^^ y) - 

注意，事 件仁矣 X < rr +和}与事件 { y^YKy + S 2 } 是同一事件.所以 
fy{y)52 ^P(y ^ Y ^：y + S 2 ) = P(a ： ^ X < a: + <5i) ra fx{x)Si ， 

将 A 移到公式的左端，并利用比率 S 2 /S 1 的结论，就可以得到 
/以2/)為工)= fx ( x ). 

也可以将5 2 移到公式的右端，并利用比率 S 1 / S 2 的结论，就可以得到 


fv ( y ) ■- 


■ fx(h(y))^(y) 


4.1.3 两个随机变量的函数 

和一个随机变量的情形一样，我们采用两 步法： 先计算分布函数，然后微分得 
到概率密度函数. 

例 4 .7在两个射手射击同一目标的游戏中，假定每个射手的弹着点与目标中心的 
距离服从 [0,1] 上的均匀分布，而且彼此相互独立.问失败者的弹着点离目标中心 
距离的概率密度函数是什么？ 

设 X 和 F 分别是第一个和第二个射手的弹着点离目标中心的距离.令 Z 是 
失败者的弹着点离目标中心的距离，则 


Z = max{X, Y}. 

我们知道 x 和 y 都是服从[0, 1] 的均勻分布，所以,对任意的 z e [0, 1]， 
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P(X ^ z ) = P(y ^ z ) = z . 
利用 X 和 y 的独立性，对任意的 z e [0, 1]， 

F z { z ) = P{Z ^ z ) 


= P(X ^ z,Y ^ z ) 


= P ( X ^ z ) P(y < z ) 
= z 2 . 


经过微分可得 


fz ( z )= 


若 2 e [ o , l ] 时， 

其他. 


□ 


例 4.8 假设 X 和 y 都服从区间 [0, 1] 的均勻分布，而且彼此相互独立.问随机 
变量 Z = Y/X 的概率密度函数是什么？ 

我们还是根据两步法先计算 Z 的分布函数，然后微分得出它的密度函数.在 
计算的时候要对两种 情形： 0 < ^ < 1和 z > 1分别处理.如图 4.5 所示，我们可以 


得到 


卜/2， 

p z{z) = P ^ ^ = i 1 - 1/(2 :)， 

1 °> 


将 F z { z ) 微分，可得 


若;2 6 [0, 1] 时， 
若> 1时， 
其他. 


1 1/2, 若 ¥截:[0，1]时， 

1/(2 之 2 )， 若之 > 1时， 口 

0， 其他. 


图 4.5 



计算例 4.8 中 Z = Y / X 的密度函数.概率 P ( Y/X < 2 )等于单位正方形内阴影部分 
的面积.左图处理 0 < ^ < 1 情形下的概率，右图处理 2 > 1 情形下的概率 



4.1 随机变量函数的分布密度函数 185 


例 4.9 罗密欧和朱丽叶定期约会，他们每个人每次到达约会地点时都会离约定的 
时间有延迟，而且他们的延迟时间是彼此相互独立的.假定延迟的时间都服从指数 
分布，参数为 A . 那么他们到达约会地点的时间差具有什么样的概率密度函数？ 

记 X 和 Y 分别是罗密欧和朱丽叶约会时到达的时间（假定约会时刻为 0) .我 
们的目标是计算 z = 的概率密度函数.由假设可知 X 和 Y 都是服从参数 

为 A 的指数分布.我们先计算分布函数 F z ( z ), 分两种情况 2 > 0和 2 < 0来讨论， 
见图 4.6. 



图 4.6 计算例 4.9 中 Z = X - y 的分布函数.为了求出概率 P ( X - Y > z ), 必须对联合密 
度函数 fx , y ( x , y ) 进行积分，积分区域如图中的阴影部分所示.左图处理2 > 0的情 
形，右图处理 z < 0的情形 
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综合2 > 0和 z < 0两种情况，我们可以得到 

( l - l - e - Xz , 若00时， 

Fz(z)=\, 2 

若 z < 0时. 

对分布函数进行微分，可以得到密度函数，即 

f $ e - A2 ， 若 GO 时， 
fz ( z ) = I 

|^ e A ' 若2： < 0时. 

这就是有名的 双边指 数密度函数，也称为 拉普拉 斯密度函数. 口 

4.1.4 独立随机变量和——卷积 

设 x 和 y 是两个独立的随机变量，考虑它们的和 z = x + y 的分布.首先， 
我们推导当 x 和 y 都是离散的情况下， z 的分布函数. 

设 x 和 y 是仅取整数值的独立随机变量，它们的分布列分别为和 py . 则 
对于任意整数 a 

p z ( z ) = P(X + Y = z ) 

= P(X = x,Y = y ) 

{(x,y)\x^-y=z} 

= j2 F ( x = x ： Y = z - x ) 

X 

= Y 2 px { x ) py { z - x ). 

得到的分布列称为 X 和 y 的分布列的卷积.关于卷积的直观意义见图 4.7 的 
说明. 

， (0,3) 

.( 1 , 2 ) 

.( 2 , 1 ) 

_ (3,0) 


图 47 X + y = 3 时对应的概率 pz ( S ) 是所有满足 x + y = 3的 （ x ， y ) 出现的概率之和，图 
中标出了这些点.这类的点的概率计算公式 如下： 


px , v ( x ,3 - x ) = px { x ) p Y (3- x ) 
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现在我们假设 X 和 F 为独立的连续型随机变量，它们的概率密度函数分别为 
/ x 和 / y . 我们希望求出 ^ = x + y 的概率密度函数，为此，我们首先求出 X 和 
Z 的联合概率密度函数，然后通过积分求出 Z 的概率密度函数. 

首先注意到， 


P ( Z < z\X = x ) = P(X + r ^ z|X = a :) 
= P(x + Y ^ z ) 

= P ( Y ^ z - x ), 


第二个等号由 X 和 Y 的独立性所致.两边同时取 z 的微分，可见 f z [ x ( z \ x ) = 
fr ( z - x ). 利用乘法法则，有 

fx , z ( x , z ) = fx ( x ) fz \ x ( z \ x ) = fx ( x ) f Y (z - x ), 

由上式最后可推得 

fz ( z ) = [ fx , z ( x , z ) dx = f fx ( x ) f Y {z - x ) dx . 

J — oo J — oo 

这个公式和离散情况下的公式是完全类似的，只是用积分替代了求和，用概率密度 
函数代替了分布列.图 4.8 给出了这个公式的一个直观理解. 



图 4.8 连续随机变量情形下卷积公式的说明（对比图 4.7). 对非常小的5 > 0,图中带形区 
域所代表的事件发生的概率就是 P ( z^X + Y^z + 6)^ f z ( z ) S . 因此， 


fz ( z ) S = P ( z^X + Y ^z + S ) 

/ *oo rz-x-\-6 

= / / fx ( x ) f Y ( y)dydx 

J —oo jz—x 

~ J fx ( x ) fy(z - x )5 dx . 


欲证等式去掉上式左右两边的 6 即得 



188 第 4 章随机变量的深入内容 


例 4.10 设随机变量 x 和 y 相互独立并且都服从区间[0, 1] 上的均匀分布.按独 
立随机变量之和的密度公式， ^ Mz = x + y 的概率密度函数为 

fz { z ) = J fx { x ) f Y (z - x ) dx . 

被积函数 fx ( x ) f Y (z — a ;) 当0彡 a ; 彡1且彡1时是非零的（实际上等于 
1). 将这两个不等式联合起来，被积函数当 ms ^{0, z - 1} < a ; < min { l , z } 时非零. 
因此， 

. ,, \ min { l , z } - max {0, 2 ： - 1}, 0彡 2 < 2, 

fz ( z ) = < 

1。， 

如图 4.9 所示， f z { z ) 的图像像个三角形的尖 
顶. 口 

下面我们给出卷积公式的一个重要的应 
用. 

例 4.11 (相互独立正态随机变量之和的分布） 

设随机变量 X 和 F 相互独立，分别服从均值 
为 h 和化，方差分别为4和 < 的正态分 
布.定义 Z = X + F . 由卷积公式，可得 

Mz) = L 7lk eXP (-^^) ★exp (- { -~ X 2 ；/ v)2 ) dx. 

上式中的积分有明确的表达式，但是细节比较麻烦，所以在此省略.最后的结论是 

fz ( z ) = 1 exp 〜 . 

^2K{al + a2) V 2 (<t2 +0 t2) J 

这是均 值为〜 + 〜，方差为 a 〗+ 4 的正态分布的密度函数.所以可以得出 结论: 
两个独立正态随机变量之和仍然是正态的.在 4.4 节里会使用矩母函数的方法来讨 
论本题的派生问题. 口 

例 4.12 (两独立随机变量之差）卷积公式也可以用于计算 X - F 的密度函数.其 
中 X 和 F 是相互独立的.方法是将 X - Y 看成是 X 与 - F 的和.注意， - y 的密 
度函数是 f - y { v ) = fy (- y ), 从而 

fx - y ( z ) = j f x ( x ) f- Y (z - x ) dx = f fx ( x ) f Y (x - z ) dx . 

J —oo J —oo 

■ 现在设 X 和 y 相互独立，且都服从参数为 A 的指数分布（见例 4.9). 对任意 
0 0,注意到只有当 x ^ zH , fy(x - z ) 才非零，所以 


其他情况. 

1 八 

~ 0 [ 1 2 ^ 

图 4.9 两个独立的 [0,1] 上均勻分布 
随机变量的和的概率密度函数 
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poo 

fx - v ( z ) = J fx ( x ) fy(x - z)dx 



=X 2 e Xz J°° e~ 2Xx dx 

-^ XZ ^~ 2XZ 
= r~ Xz ^ 

这与例 4.9 得到的结论是一致的. 当 z < 0时，可以使用相同的方法，只需注意到 

fx-y(z) = fy-x(z) = f_ {x ~Y){z) = fx-Y(—z). 

上式中第一个等式是因为 x 与 y 同分布，因而 x - y 的分布具有对称性. 口 

使用卷积公式时,最关键的步骤是要确定正确的积分限.但是这通常是繁琐且 
易错的,但是可以利用下面将要介绍的图像法加以避免. 

4.1.5 卷积的图像计算法 

我们使用一个哑变量 * 作为本节涉及的不同函数的自变量，见图 4.10. 考虑两 
个概率密度函数 / x ⑴和 fr(t). 给定 0 —个值，计算卷积 

fz{z) = J fx(t)fY(z ~ t)dt 〆 

的图像表达包括如下步骤. 



图 4.10 卷积计算的描述.对于考虑中的 Z 的值, fz ( z ) 与最后一幅图中所示的函数的 
积分相等 
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( a ) 画出 fy ( z - t ) 关于 * 的函数图像.这个图像和函数 f Y ( t ) 的图像的形状完 
全类似，除了一点 不同： 它是先“翻转”然后平移一个 z 的量.如果 z > 0,向右平 
移； 如果 z <0, 向左平移. 

( b ) 我们将 /x ⑷和 fv ( z - t ) 的图像放在彼此上面，制作出它们的乘积. 

( c ) 我们通过计算乘积函数的积分得到 fz ( z ) 的值 • 

通过变化 z 的量，即我们平移的量,就可得到取任何 z 时的 f z ( z ). 

4.2 协方差和相关 

本节介绍如何量化两个随机变量之间关系的大小和方向.该内容非常重要，将 
应用于在第 8 章和第 9 章的估计方法. 

X 和 y 的协方差记为 cov ( X , Y ), 其定义 如下： 

cov ( x , y ) = e [( x - E[x])(y- E[y])]. 

当 cov ( X , Y ) = 0 时，我们说 X 和 y 是不相关的 • 

粗略地说，一个正或者负的协方差表示在一个试验中的 X - E [ X ] 和 Y 
的值“趋向”有相同或者相反的符号（见图 4.11). 因此，协方差的符号提供了一个 
X 和 F 之间关系的重要定量指标. 




⑷ 

图 4.11 正相关随机变量和负相关随机变量的例子.这里 ( X , Y ) 在图中所示的椭圆中均匀分 
布.在情况⑷中 cov ( X , y ) 是正值，在情况 （ b ) 中是负值 

协方差的另一种表达为 

cov ( X , Y ) = E [ XY ] - E [ X ] E [ F ], 

通过简单运算就可证明这个等式.从协方差的定义出发，我们还可以推导出协方差 
的一些 性质： 对任意的随机变量 X , y 和 Z ， 以及任意实数 a 和6， 
cov ( X , X ) = vav ( X ), 
cov { X , aY + b ) = a - cov ( X , Y ) 
cov ( X , Y + Z ) = cov ( X , Y ) + cov ( X , Z ). 


(b) 
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要提醒注意的是下面的 事实: 如果 X 和 Y 是相互独立的，则 E[XY] = E [ X ] E [ y ], 
即有 cov(x,y) = 0. 因此，如果 x 和 y 是相互独立的，它们是不相关的.但是，逆 
命题不成立,见下例. 

例 4.13 设随机变量对 （ X ， y) 分别以 1/4 的概率取值于 （ 1 ， 0) ， (0, 1 )， (- 1 ， 0) 和 
(0, -1)( 见图 4.12). 因此，叉和 y 的边缘分布列都关于 0 对称 ，且 E[X] = E[Y] = 0. 
更进一步，对 (x,y) 可能取到的任何值，: r 和 y 中总有一个为0,此时 Xy = 0且 
E[XY] = 0. 因此 


cov(X, Y) = E[XY] - E [ X ] E [ y ] = 0, 


即 X 和 y 不相关.但是， X 和 F 不是独立的.因为，例如 X 取非零值时就要求 y 
取零. 

这个例子可以推广出一个一般的结论. 

假设 X 和 F 满足 

E[X\Y = y]=E[X], 对任意的 y 成立， 

则如果 x 和 y 是离散变量时，利用全期望 
定理可以得到 

E[XY] = J2ypr(y)m\y = y] 


Vi 

, (0,1) 

(-1*0) 

(1U0) ~ * 


* (0,-1) 


v 图 4.12 例 4.13 中X和 Y 的联合分 

= e [ x ] J ^ ypyiy ) = E[x]E[y]. 布列.图中所示的四个点中每 

V 个点的出现概率都为1/4.这 


这样 X 和 F 是不相关的.在连续的情形下， 
这个结论仍然成立. □ 


里X和 y 不相关但是却不是 
独立的 


两个方差非零的随机变量 X 和 Y 的相关系数 〆 的定义 如下: 


P(X,Y) = 


cov(X, Y) 


^var(X)var(Y) 


(当 x 和 y 在文中很明显时可使用简化记号 p .) 它可视为协方差 cov ( x ， Y ) 的标 
准化.且事实上，可证明 P 取值于 _1 到1之间（见章末习题). 

如果 P >0( P <0), 则 X - E [ X ] 和 y - E [: K ] 的值趋向同号（反号)，且 | P | 的大 
小反映了趋向程度的标准度量大小.事实上，总可以假定 x 和 y 有正的方差，在 
此种情况下，可以证明 p = 1 (P = -1) 当且仅当存在一个正的（负的）常数 C ， 使得 


y-E[y] = c (x-e[x]) 


(见章末习题).下面的例子部分地解释了这个性质. 
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例 4.14 考虑一个硬币的 n 次独立的抛掷，其中正面朝上的概率是 p . 设 X 和 y 
分别是正面朝上和负面朝上的次数，现在让我们来看一下 X 和 F 的相关系数.这 
里，我们总有 X + y = n 且 E[X] + E [ F ] = n. 因此 

X - E [ X ] = -( F - E [ F ]). 

我们将计算 X 和 y 的相关系数，证明它确实等于- 1. 

我们有 

cov ( x , F ) = E [( X - E [ x ])( y - E [ y ])] 

= -e[(X-E[X}) 2 ] 

=— var ( X ). 

因此，相关系数为 

狀 y )= 7 C0V ( x ’ y ) = _ L □ 

i / var ( X ) var ( F ) y / var ( X ) var ( X ) 

随机变量和的方差 

协方差可以用于计算多个随机变量（不必独立）之和的方差.特别地，设随机 
变量具有有限的方差，则 

var(Xi + X 2 ) = var ( Xi ) + var ( X 2 ) + 2 cov ( Xi , X 2 ), 


更一般的结论是 

var | ^ Xi I = ^ var(Xi) + ^ coy(Xi,Xj). 

\i=l / i=l {(hMm 

上述公式,可以如下 推导： 简记尤= 見- EiXi ], 



= e[eE^] 

L i=l j=l J 

=EE e [ 尤毛 ] 
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= ^E[^ 2 ]+ Y 1 E [ 尤矣 ] 

=^var(Xj) + ^ cov(Xi,Xj). 

*=i {(i, 州的 } 

下面举一个例子来运用这个公式. 

例 4.15 考虑 2.5 节中讨论的帽子问题.有 n 个人将帽子扔进一个盒子，然后每人 
随机地选一顶帽子.设 X 是拿到自己帽子的人数，现在计算 X 的方差. 设足表 
示第 i 个人是否拿到自己帽子的随机变量，即 Xi = 1，表示拿到了自己的帽子，否 
则不= 0. 此时， 


注意，不服从 p = P (不 = 1) = - 的伯努利分布，经计算， 

71 

酬 4 , ■㈤ 4 (H) • 


当 </j ， 


所以 


coviX^Xj) = EiXiXj] - 

= P(X i = l,X j = l)~--~ 
n n 

= P(Xi = 1)P(X,- = l\Xi = 1)-^2 

_ 1 1 1 
n n~l n 2 
_ 1 
n 2 (n — 1) • 


var ( X ) = var 


(n \ 


=^var(Xi) + ^ cov(Xi,Xj) 

i=1 

= n - K 1 ' n ) +n(n - 1)， 


n 2 (n — 1) 


□ 
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协方差和相关 

• X 和 F 的协方差公式 如下： 

cov ( X , Y ) = E [( X - E [ X ])( r - E [ F ])] = E [ XY ] - E [ X ] E [ F ]. 

• 如果 cov ( X , Y ) = 0, 则称 X 和 y 不相关. 

•如果 X 和 y 是独立的，则它们不相关.反之不总成立. 

• 两变量和的方差公式： 

var(X + Y ) = var ( X ) H - var ( y ) + 2 cov ( X , F ). 

• 具有正方差的随机变量 X 和: K 的相 关系数 p ( X , Y ) 定义为 
ov ( X , Y ) 


P(X,Y) 


且满足 


•\/ var ( X ) var ( F ) 


4.3 再论条件期望和条件方差 


本节再次讨论随机变量 X 在给定另一个随机变量 y 之下的条件期望，可将这 
个条件期望看成依赖于 F 的函数，因而是随机变量.我们将导出全期望定理的另 
一个版本，称为重期望法则，用通俗的语言说，就是条件期望的期望等于无条件期 
望.同时,我们也推导全方差法则，该法则涉及条件方差和无条件方差. 

一个随机变量 X 的条件期望 E [ X\Y = y ] 的值，依赖于 y 的值 y . 因为 
m\y = y ] 是？/的函数，所以 e [ x | y ] 是 y 的函数，因此也成为一个随机变量， 
它的分布依赖于 F 的分布.在本节中，我们研究 E [ X \ Y ] 的期望和方差.它的性质 
不仅在本章很重要，而且在第8章和第9章的估计和统计推断中特别重要. 

例 4.16 假设我们在投掷一个不均匀的硬币，正面朝上的概率，记为 F ， 也是 

随机的.假定正面朝上的概率 F 的分布为已知，它是[0，1]上的分布.现在我们 
投掷 n 次硬币，定义 X 为正面朝上的总次数.由于对任意的 y e [0,1], 我们有 
E [ X\Y = y }= ny , 所以 E [ X \ Y ] 是随机变量 nF . □ 

既然 E [ X \ Y ] 是一个随机变量，那么就应该有自己的期望 E [ E [ X \ Y }}. 使用期望 
法则，可得 

= y ] p Y ( y ), Y 离散， 

E [ E 刚]十 

ly E [ X|y = y ] f Y ( y ) dy , F 连续. 
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右边的两个表达式在第 2, 3 章中都非常熟悉.使用全期望定理，它们都等于 
E [ X ], 这样我们就可以得出如下 结论： 不管随机变量 y 是离散的、连续的、或混合 
的，只要随机变量 X 具有有限的期望 E [ X ], 下面的法则成立. 


重期望 法则： E [ E [ X \ Y }} = E [ X ], 


下面使用实例来说明如何运用重期望法则，来计算涉及条件概率的问题中的期 
望值. 

例 4.16 ( m ) 假设 y 是投掷硬币出现正面的概率 （ F 是随机变量！ ）， Y 的分布 
是 [0,1] 上的均勻分布.因为 E [ X | y ] = nF , 且 E [ F ] = 1/2,运用重期望法则，可得 

E [ X ] = E [ E [ X | y ]] = E [ nY ] = nE [ y ] = □ 

例 4.17 我们考虑一根长度为 Z 的木棍.从一点将其折断，这点是随机选择的，即 
这个点的分布是在整条木棍上均勻 分布. 折断以后，留下含木棍左端的那一半.我 
们接下来重复以上步骤.试问在折两次之后剩下的木棍长度的期望是多少？ 

记 y 为第一次折断之后剩下的木棍长度， X 为第二次折断之后木棍剩下的长 
度.我们有 E [ X \ Y ] = Y / 2 , 这是因为断点是在剩下的长度 y 上均勻选择.类似地, 
有 E [ Y ] = 1 / 2 . 因此， 

E [ X ] = E [ E [ X \ Y }} = e [|] =® = i . □ 

例 4.18 (全班平均成绩与分组平均） 一个班级有 n 名 学生. 学生 i 的测验分数记 
为 Xi . 已知班级测验的平均分为 

m= -'V'xi. 

n U 

现将全部学生分成 A : 个互不相交的子集也，…，為^(组) . 我们记 n s 为 s 组的学生 
数 • s 组的平均分数为 



全班的平均分数可以用每组的平均分数 m s 的加权平均来计算， s 组的权重正比于 
为该组的学生数，即权重为 n s / n . 直接计算证明此法得到的结果是正 确的： 

k k , 

沒=丄 s=i 8 ieA a 



196 第 4 章随机变量的深入内容 _ 

71 i=i 
= m. 

这和条件期望怎样联系起来的呢？考虑这样一个实验.随机地选择一位学生， 
其中每个学生被选中的概率是 i/n. 考虑下面两个随机 变量： 

义=被选中的学生的 成绩； 
y = 被选中的学生所在的组， （ Ye { i ， …， fc }). 

所以， 

E[X] = m. 

事件= s } 与选中的学生属于 s 组是等同的事件.发生的条件下，每个 
在这个组的学生被选中的概率为 l / n s . 因此， 

E [ X|y = s ] = — Xi = m s . 

Ha i€A s 

一个随机选中的学生属于 s 组的概率为 n s / n ， 即 P(y = s )= n s / n . 因此， 

k k 

m = E [ X ] = E [ E [ X | y ]]= E [ X|y = s ] P(y = s ) = — m s . 

s =i s =i n 

因此，利用组平均求全班平均成绩的方法可视为重期望法则的一种特殊情况. 口 
例 4.19 (预测调整）记 y 为公司来年上半期的销量， X 为全年销量.公司已经 
建立了一个销量统计模型，所以 X 和 Y 的联合分布是已知的.在年初，期望 E[X] 
可以作为实际销量 X 的一种预测.在年度中期时,上半年的销量已经实现，因此随 
机变量 y 已知.这将我们置于一个新环境中，在这里所有变量都依赖于 y . 基于对 
F 的了解，公司建立了一个调整后的年度销量预测 E[X\Y}. 

根据年度中期信息，我们可将 E[X\Y] - E [ X ] 看成中期的销量预测的修正值. 
由重期望法则 可知： 

E [ E [ X | y ] - E[X]} = E [ E [寧] 卜 E [ x ] = E [ X ] - E[X] = 0. 

这意味着中期的销量预测的修正值一般不等于 0. 但在年初，我们并不知道上半年 
的销售量，只能把销量预测的修正值 E[X\Y] - E[X] 看成一个随机变量.但是概率 
计算说明这个随机变量的平均值为 0. 这在直观上是十分合理的，事实上，如果这 
个期望值取正值，原先的预报在最初就应该更高. □ 

最后给出一个条件期望的重要 性质： 对任意给定的函数 5 ,均有 
E[Xg(Y)\Y]=g(Y)E[X\Y]. 

这是因为，在给定 Y 的条件下， g(Y) 是一个常数，所以可以从期望中提出来（见习 
题 25). 
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4.3.1 条件期望作为估计量 

如果我们将 Y 视为能提供 X 信息的观测值，则我们很自然地将条件期望作为 
给定 Y 的条件下，对 X 的估计,记为 

X = E [ X \ Y }. 

这样，估计误差就定义为 

x = x-x. 

显然估计误差也是随机变量，且满足 

E [ X \ Y ] = E [( X - X )\ Y ] = E [ X \ Y ] - E [ X \ Y ] = X-X = 0. 

所以随机变量恒为 0: 对任意的2 /， E [ X\Y = j /] = 0. 运用重期望法则，还 
可以得到 

E [ X ] = E [ E [ X | y ]] = 0. 

这就表明估计误差没有系统性的正或负的偏倚. 

下面接着证明 X 具有另一个有趣的 性质： 它与估计误差 X 是不相关的.事实 
上，运用重期望法则，可得 

E [ XX ] = E [ E [ XX \ Y }] = E [ XE [ X | r ]] = 0, 

倒数第二个等式成立的原因是 x 完全是 y 的函数，所以 

E[xx|y] =XE[x|y] = 0. 

从而， 

cov(X,X) = E [ XX ] - E [ X ] E [ X ] = 0 - E [ X ] .0 = 0， 

故戈与戈是不相关的. 

基于 cov ( X , X )=0 这个结论,又注意到 X = X + X , 两边取方差，我们可以 

得到 

var(X) = var(X) + var(X). 

上面这个等式，可以表述为一个有用的法则，下面我们开始讨论这个法则. 
4.3.2 条件方差 

首先介绍随机变量 


•( X | y ) = E [( X - E [ X \ Y ]) 2 \ Y ] = E [ X 2 \ Y ]. 
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这是一个关于 y 的函数,对于给定的 Y 值 y ， 它等于在已知 {Y = 2/} 的条件下， X 
的条件方差为 

var(X|F = y) = E[X 2 \Y = y}. 

利用 结论： E[X] = 0 和重期望法则，我们可以将估计误差的方差写成 
var(X) = E[X 2 ] = E[E[X 2 |y]] = E[var(X|y)], 

所以等式 var(X) = var(X) + var(X) 就可以写为如下形式 . 


全方差 法则： var ( X )= E [ var ( X | y )]+ var ( E [ X | y ]). 


下面举例说明全方差法则对计算随机变量的方差非常有用. 

例 4 .16 ( 续）我们还是考虑 n 次投掷一枚不均勻的硬币的实验•设 Y 是投掷硬 
币正面朝上的概率,服从 [0,1] 区间的均勻分布. 定义 X 为 n 次投掷硬币正面朝上 
的总 次数. 则对任意的 y e [0,1], 我们有 E [ X\Y = y ] = ny , 故 E [ X | y ]= 必，且 
var ( X | F ) = nY(l - Y ). 所以 

E [ var (寧) ]= E [ nF(l - Y )} = n ( E [ y ] - E [ y 2 ]) 

= n ( E [ y ] - var ( y ) - ( E [ y ]) 2 ) = „ (I — - — 

再有 2 

var ( E [ X | F ]) = var ( ny ) = 

所以，运用全方差法则，我们有 

var ( X ) = E [ var ( X | y )] + vax(E 刚 )= J + 盖. □ 

例 4.17 m 重新考虑两次折断木棍的问题.木棍原长/，断点是随机选择的 • y 
是第一次折断后剩下的长度, X 是第二次折断后剩下的长度.我们已经计算得到 X 
的期望为 Z /4 现在我们运用全方差法则来计算 var ( X ). 

因为 X 服从0到 F 之间的均匀分布，得 

var ( X | y ) = 

因为 y 服从0到！之间的均勻分布，得 

EH 寧)] / \ v^y = Lt = 



同时 E [ X \ Y ] = Y /2 , 所以 
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var ( E [ X | y ]) = var ( F /2) = Jvar ( y ) = 

根据全方差法则，得 

var ( X ) = E [ vax ( X | y )] + var ( E [ X | F ]) = l l + l l = 7 A . □ 

例 4 . 2 0 (学生成绩的方差与分组方差）所讨论的问题背景与例 4.18 中的相同，我 
们重新考虑这些随机变量 

X = 学生的成绩， 

7=该生所在的组 ， （y e { l ，._.， fc }). 

记 n s 为 S 组的学生数目，记 n 为学生总数.我们解释下列公式中的不同的量 
var ( X ) = E [ var ( X | y )] + var ( E [ X | F ]). 

在这里， var ( X|y = S ) 是 s 组测验分数的方差.因此， 

k k 

E [ var ( X | y )] =^ P(y = s)v & t(X\Y = s ) = ^ ^ var ( X|y = s), 

s =i s =i n 

所以 E [ var ( X | y )] 是各组方差的加权平均，这里每个组的权重与组内人数成正比. 

注意， E [ X\Y = s ] 是 s 组的平均成绩_因此， var ( E [ X | y ]) 就是各组均值波动性 
的 度量. 全方差法则表明分数的总方差可以划为两 部分： 

( a ) 在每组内部方差的平均数 E [ var ( X | F )]; 

( b ) 各组之间的方差 var ( E [ X | y ]). □ 

我们前面已经发现重期望法则（以全期望定理的方式给出）可以用来化简复杂 

的期望计算.对于方差计算也可用类似的方法. 

例 4 . 2 1 (通过给定条件来计算方差）考虑一个连续随机变量 X ，它的概率密度函 
数在图 4.13 中给出，我们定义一个辅助的随机变量 y 如下： 

y = | l ， 若 x < l , 

[2, 若 x 彡 1. 

这里， E [ X | F ] 以 I / 2 的概率分别取值 2 和 I / 2 .因此， E [ X \ Y ] 的均值为 5/4. 接下 
来 
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M 的 i 
1/2 
1/4 


图 4.13 例 4.21 中的密度函数 

当在给定 Y = 1或 Y = 2的条件下， X 在长度为1或2的线段上均勻分布. 

4 


因此 

且 

归总，得 

总结本节要点如下. 




var(X) = E[var(X|y)] + var(E[X|y]) = A + A = g. 


条件期望和条件方差的性质 

• E [ X\Y = y ] 的值依赖于 y . 

• E [ X \ Y ] 是随机变量 Y 的函数，因此它也是一个随机变量.当 y 的值为 y 
时，它的值就等于 E [ X\Y = y }. 

• E [ E [ X | y ]] = E [ X ] (重期望法则). 

• E [ X\Y = y ] 可视为已知 y = 2 /时，对 X 的估计_相应的估计误差 E [ X | y ]- 
X 是一个零均值的随机变量，且与 E [ X \ Y ] 是不相关的. 

• var ( X | y ) 也是个随机变量，当 y 的值为 y 时，它的值就等于 var ( X|y 
= y). 

• var ( X ) = E [ var ( X | y )] + vax ( E [ X | y ]) (全方差法则 )• 


4.4 矩母函数 

在本节中，我们引进与随机变量相关的矩母函数®这个概念.矩母函数是对概 
率（分布列或者概率密度函数）的另一种表述.它并不是特别直观的，但是在解决 
某些类型的数学计算时很方便. 


①原文为变换，按国内术语译成矩母函数.一译者注 
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一个与随机变量 X 相关的矩母函数是一个参数 s 的函数 M x ( s ), 定义如下 
Mx ( s )= E [ e sX ], 


当从上下文中可以明显看出所指随机变量是 X 时，矩母函数也可以简记为 M ( s ). 
更具体地，当 X 是一个离散型随机变量时，相关矩母函数为 


M(s) = ^2e sx p x (x), 

X 

当 X 是连续型时，有 ^ 

M(s)= r e sx fx(x)dx. 0 
J — OO 

下面给出矩母函数的一些例子. 

例 4.22 设 

{ 1/2，若 x = 2, 

1/6，若 a ; = 3， 

1/3,若 a ; = 5. 

则相应的矩母函数为 

M{s) = ie 2s + ^e 3s + 备 e 5 ' □ 

例 4.23 (泊松随机变量的矩母函数）设随机变量 X 服从参数为 A 的泊松 分布： 


Px(x) = 


X x e~ x 

x \ 


x = 0,1,2, , 


则其矩母函数如下所示 

记 a = e s A ， 贝 lj 


M ( S ) = £ e - 


A x e- A 


见⑷ = e - 入 J ] 
x=0 


a x 


= e _ A e a = e° _A = e A(eS_1) . 


□ 


例 4.24 (指数随机变量的矩母函数）设随机变量 X 服从参数为 A 的指数分布 


fx { x ) = \ e ~ Xx , x ^ 0, 


①对 Laplace 变换熟悉的读者可能会发现一个连续型随机变量的相关矩母函数和它的概率密度函数 
的 Laplace 变换是基本相同的，唯一的区别是 Laplace 变换通常使用而不是对于离散 
型的情况,变量 z 有时取代 e s ， 得到的矩母函数 M ( z ) = Z x z x p x ( x ) 称作 >变换.但是,本书中 
不会使用之-变换. 
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则 


M ( s ) = X e ax e- Xx dx 

= X j : 

e ( s - X)x ,00 

= A ^lo (当 S< 入时） 

A 

= A - s ' 

以上运算和 M ( s ) 的公式仅在 s < A 下成立，否则积分为无穷. □ 

重要的是要认识到矩母函数不是一个数而是一个参数为 s 的函数.严格地说， 
M ( s ) 只在使得 E [ e ^] 有限的 S 上有定义.上一个例子已经说明了这个事实. 

例 4.25 (随机变量线性函数的矩母函数）记 M x { s ) 为随机变量 X 的矩母函数, 
考虑新随机变量 Y = aX + b 的矩母函数.由矩母函数定义，有 

M r ( s ) = E [ e a(aX+t,) ] = e sb E [ e soX ] = e sb M x ( sa ). 

例如,如果 X 服从参数 A = 1的指数分布，则 M x ( s ) = 1/(1— s ), 且如果 y = 2 X +3, 
则 

M r (s)=e 3a T ^. □ 

例 4.26 (正态分布随机变量的矩母函数）记 X 为服从均值为/ X 、方差为 a 2 的正 
态随机变量.为了计算它的矩母函数，首先我们考虑标准正态随机变量 y 的情况， 
对 Y 有 M = 0, a 2 = 1.求出 Y 的矩母函数以后，再应用前面例子里推出的公式, 
导出 X 的矩母函数.标准正态分布的密度函数为 

油)士？ /2 ， 


相关矩母函数为 


M y (s) = 厂 -l=e- y2 / 2 e^dy 

= e* 2 /2_l = l°° e -{y 2 /2)+ sy -(s 2 /2) dy 



= e 々 2 , 
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其中，最后一个等号是利用正态分布密度函数积分为1的结果.均值为…方差为 
CT 2 的正态随机变量可表成标准正态随机变量的线性 函数： 

X = aY + fi . 

而标准正态随机变量 Y 的矩母函数为 My ( S )= e s 2 /2 ； 应用例 4.25 中的公式，有 
M x { s ) = e s ^ M Y { sa ) = e (八 2 /2)+' □ 

4.4.1 从矩母函数到矩 

“矩母函数”这一名称是由于随机变量的矩可以通过矩母函数的公式轻易计算 
出而得来的.为验证这一点，现在考虑一个连续型随机变量 X ,根据定义 

M ( s )= I " e sx f x ( x ) dx , 

J — OO 

在 M ( s ) 定义式两边取 S 的导数 

Ts Mis )= ny xMx)dx 

=厂 ^- g e sx fx ( x)dx 

= [ xe sx f x ( x ) dx . 

J — OO 

上面的等式对 S 取任何值都成立®.考虑 s = 0时的特殊情况，有 
^-^( S )| s=0 = J xfx ( x)dx = E [ X ], 

更广泛地，如果我们对 M ( s ) 取 n 次 S 的导数，通过类似的计算有 
X = J ^ n fx( X )dx = E [ X n ]. 

例 4.27 我们在前面（例 4.22) 已知 

{ 1/2，若 a ; = 2， 

1/6，若 a : = 3, 

1/3,若 a : = 5. 

①这个导数涉及饿分和积分次序的交换.这种交换对本书讨论的所有情况都适用.更进一步，对于 
一般的随机变量这种积分和微分的次序都是可交换的（包括离散型随机变量).事实上，下面更抽象 
的等式也是成 立的： 

X e 昨 e [£#] =呕叫 
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其相关矩母函数为 
因此， 


同时 


M { s ) = ^ e 2s + ^ e 3s + 臺 e 5s . 

E [«=。 

= i.2e- + i.3e- + i-5e-| 

=^- 2 +^- 3+^-5 
2 o 6 

19 

= ¥• 


寧 2 ] = ^ m ( s )L 。 

= ^-4 e 2s + i -9 e 3s + i -25 e 5s | 

2 b 6 ls=0 

= i -4+ i .9+1.25 
71 

= T _ 

指数随机变量的概率密度函数为 


fx(x) = Xe~ Xx , x^O, 

前面已得 

M(s) = 占 

A 一 s 

因此， 

d " 入 d 2 2A 

dI M ( s )= ( A ^' d ^ M(s) = ( A ^- 

令 s = 0, 有 

E[X]= 去， E[X 2 ] = A, 

这和第 3 章中推出的公式相吻合. 口 

我们以矩母函数的两个更有用且普遍的性质结束本节.对于任意的随机变量 
X ，有 

MWO)=E[e ox ]=E[l] = l ， 
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且如果 X 仅取非负整数值时，有 

s Um o M x (s) = P(X = 0) 

(见本章末习题). 

4.4.2 矩母函数的可逆性 

矩母函数 M x ( s ) 的一个非常重要的性质是它可逆，即可用它来确定随机变量 
X 的概 率律. 当然，为了使矩母函数 M x ( s ) 能够确定相应的概率律，一些合适的数 
学条件是必要的.幸运的是，我们所列举的例子中的矩母函数都满足这些条件.下 
面是一个更精准的描述，其证明已经超出了本教程的范围. 


矩母函数可逆的条件 

假定随机变量 X 的矩母函数⑷ 满足： 存在一个正数 a ， 对在区间 [- a , a ] 
中的任意 s , M x ( s ) 都是有限的，则矩母函数 ㈤ 唯一地决定 X 的分布函数. 


实际上，有明显的公式可以让我们从随机变量的矩母函数导出它的分布列或概 
率密度函数，但是使用起来相当困难.实际上，矩母函数通常可以基于已知分布-矩 
母函数组合的表格，通过“类型配合”进行反演.下面来看一些这样的例子. 

例 4.28 已知随机变量 X 的相关矩母函数为 



因为 M ⑷是# 的代数和，我们可以与离散随机变量的矩母函数的通用公式 

从⑷ = Yl eSX P x ^ x ) 

相比较，通过比较可以推出 X 是一个离散型随机变量 . X 的取值范围可以从相应 
的指数读出来，即-1，0, 4和 5. 取每个 a : 值的概率可以从前面乘的系数得到. 
在本例中，即 

P(X = -1) = A , P(X = 0) = i P(X = 4) = i , P(X = 5) = i □ 

从上面的例子可以看出，一个只取有限个值的离散型随机变量的分布可以通过 
观察其矩母函数得出.同样，这样的方法对于取可数无限多个值的离散型随机变量 
也有效,可见下例. 

例 4 . 29 (几何随机变量的矩母函数）已知随机变量 X 的矩母函数为 
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这里 V 是一个常数，且0 < p < 1. 我们想要求出 X 的分布.由几何级数公式得 

— = 1 + a + a 2 H -, 

1- a 

上式对于任意满足|«| < 1的 a 都成立.我们对 a = ( l - p ) e ^ 运用此公式,这里要 
求 s 充分接近0使得 ( l - p ) e s <1. 此时,矩母函数具有展开式 

M ( s ) = pe s (l + (1 — p ) e s + (1 — p ) 2 e 2s + (1 - p ) 3 e 3s + •••)■ 

将这个式子与上例中一般离散随机变量的矩母函数的表达式比较，可知 M { s ) 所对 
应的随机变量是个取正整数值的离散型随机变量.概率 P(X = fc ) 可以通过读取 
e fcs 的系数得到.特别地， P(X = l )= p , P(X = 2) = p(l - p )， 一般地有 

P(X = k )= p ( l - p ) k ~\ fc = l ，2，.... 


可见这个分布正是参数为 P 的几何分布. 


注意 


d 、 pe s 

dI M ( s )=i-(i_ p ) eS 


(l~p)pe 2s 

(1 _ (1 - p ) e 3 ) 2 


当 S = 0 时,右边等于 1/ p ， 这和第2章推出的 E [ X ] 公式相符. □ 

例 4.30 (混合分布的矩母函数）已知附近银行有三位交易员，两位快速交易员， 
一位慢速交易员.已知交易员为一名客户服务的时间服从指数分布，快速交易员对 
应的参数 A = 6,慢速交易员对应的参数 A = 4. 简来到银行，随机选择了一位交易 
员，每位交易员被选中的概率为 1/3. 试求出服务简的时间的概率密度函数和矩母 
函数. 

记 X 为简接受服务的时间，我们有 

f x ( x ) = ^ - 6 e~ 6x + i ■ 4 e - 4x , x > 0. 

相应的矩母函数为 

M { s ) = e sx 0 - 6 e— 6x + 臺 _ dx 


e sx 6 e~ ex dx 


2 

3 .. 

2 6 1 4 

3_6 -s + 3’4 —s 


e sx 4e- 4x dx 
(当 s <4 时). 


更一般地，设 Xi ，…，为密度函数 f Xl ，…， f Xn 的连续型随机变量.随机变量 
r 的一个值 y 是这样取 得的： 先随机地选出指标 i ， 选到 i 的概率为 Pi ， 如果指标 
i 被选中， y 即取不的值.此时， y 的概率密度函数为 


fv(y) = Plfxr (!/) + •••+ Pnfx n (y), 
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相应的矩母函数为 


M y (s) = piM Xl ( s ) + ■ • • + p n M Xn ( s ). 

反过来,我们也可从矩母函数求出相应的分布.例如，已知随机变量 Y 的矩母 
函数有如下 形式： 

1 1 3 1 

2 ' 2 -s + 4 ' 1 - s ' 

将这个函数可改写为 

1 2 3 1 

4 ' 2 - s + 4 ' 1 - s ， 

可见 y 是两个参数分别为2和1的指数随机变量的混合变量，这两个变量被选中 
的概率分别为1/4和 3/4. 口 

4.4.3 独立随机变量和 

矩母函数的方法对于处理随机变量和的问题尤其便利.我们将看到， 独立随机 
变量的和的矩母函数是和项的矩母函数的乘积. 这样也提供了卷积公式之外的另一 
个便利的公式. 

记 X 和 Y 为独立的随机变量,并记 Z = X + K 根据定义, Z 的矩母函数为 

M z ( s ) = E [ e 3Z ) = E [ e s ( x+ ”] = E [ e sX e sy ]_ 

因为 X 和 F 是独立的，对于任意的 S ， 和 e # 是相互独立的随机变量，因此， 
它们乘积的期望即为它们期望的乘积，即 

M z ⑷= E [ e sX ] E [ e sy ] = M x { s ) M Y { s ). 

同样地，如果 Xy ， X n 是独立的随机变量，且 

Z = Xi + • • ■ + X n , 

相应的矩母函数之间有下面的 关系： 

M z { s ) = M Xl ⑷… M x „( s ). 

例 4.31 (二项随机变量的矩母函数）设&，…，为独立的伯努利随机变量，参 
数都为 P . 按定义，不难得到 

Mxi ( s ) = (1 - p ) e 0s + pe u = 1 -p + pe s , Vi . 

随机变量 Z = X 1 + ■■■ + X n 服从参数为 n 和 p 的二项分布，相应的矩母函数为 
M z { s ) = (1 -p + pe s ) n . □ 
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例 4.32 (独立泊松随机变量之和仍为泊松随机变量）设 X 和 F 为两个相互独 
立的泊松随机变量，均值分别为 A 和 / x . 由例4:23知， 

Mx { s ) = e 入(〜)， My ( s ) = e — 3 - 1 ). 

记 Z = X + F . 由于 X ' 和 y 相互独立， 

M z ( s ) = M x ( s ) M y { s ) = e A ( eS _1) e M(eS_1) = e (A+#i)(eS-1) . 

因此， Z 的矩母函数和均值为 A + m 的泊松随机变量的矩母函数相同.根据矩母函 
数的唯一性， Z 服从均值为 A + / X 的泊松分布. □ 

例 4.33 (独立正态随机变量之和仍为正态随机变量）设 X 和 y 为两个相互独 
立的正态随机变量，均值分别为化，方差分别为4.记 Z = X + Y ， 则 

M x ( s ) = e ^+^ s , M y ( s ) = e ^- + ^ s , 

且 

(o-J+o-2j a 2 

M z ( s ) = e — ^—+(^+^ y ) s _ 

因此， Z 的矩母函数与均值为^ + 方差为 al + al 的正态随机变量的矩母函数 
相同.根据矩母函数的唯一性， Z 服从上述参数的正态分布.这与 4.1 节中根据卷 
积公式计算出来的结果是一样的. 口 


矩母函数及其性质的小结 

• 随机变量 X 的矩母函数定义 如下： 

若 X 为离散型， 

M x ( S )= E [ e ， 十 

e sx f x ( x ) dx , 若 X 为连续型. 

• 随机变量的分布完全由它的矩母函数确定. 

• 利用矩母函数计算随机变量的各 阶矩： 

M -⑼ =1 ， 去桁 ㈤ L : 網，盖^⑷ L = E [ n . 

• 若 F 则 M y { s ) = e sb M x ( as ). 

•若 X 和 y 相互独立，则 M x+y ( S ) = M x ( s ) M y ( s ). 


我们已经得到了一些常见随机变量的矩母函数的公式.我们也可以用适量的 
代数学知识，对许多其他的分布推导类似的公式（见本章末有关均勻分布的习题). 
现将这些结果列于下面的表格中. 
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常见的离散随机变量的矩母函数 

• 参数为 P 的伯努利分布 (k = 0,l) 

Px(k) = | P， 若 丄 ’ Afx(s) = l-p + pe s . 

[l ~ P, 若 fc = o. 

•参数为 （ n ， p) 的二项分布， （fc = 0 ， l, … ， n) 

Px(k) = (^jp k (l-p) n - k , M x {s) = (1-p + peT- 

•参数为 P 的几何分布 （fc = l ， 2 , …） 


Px(k) =p(l-p) k ~ 1 , 


M x (s)= 


pe s 


(1—p)〆 


泊松分布，参数为 A, (fc = 0 ， l，._.) 
2 - A A fc 


Px(k)= 


Mx { s ) = e 入 ( eS-1 ). 


(a, b) 上的均勻分布 （fc = a ， a+l,... ， 6) 

e os e (6-<H-l)s 


Px(k )= 


b — a + 1 ’ 


M x {s)- 


-a+1 e s 


常见连续随机变量的矩母函数 


• ( a ， 6 ) 上的均句分布 ( a^x ^ b ) 


fx ( x ) = 7 -^—, 
b — a 

,-, 1 e 3b - e sa 

M x ( s ) =- - . 

0 — a s 

• 参数为 A 的指数分布 （: r > 0 ) 


f x ( x ) = Ae ~ Ax , 

M x ( s ) = ( S < A ). 

A — S 

• 参数为 （ M ' 2 ) 的正态分布 （—00 

< X < 00) 

W 一 士― 2 ， 

M x ( s ) = e ( aV / 2 )+ w . 


4.4.4 联合分布的矩母函数 

如果两个随机变量 x 和 y 通过联合分布来描述（例如是联合概率密度函数)， 
那么每个变量都有一个矩母函数 Mx ( s ) 和 M y ( s ). 它们是边缘分布的矩母函数， 
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不包含任何关于这两个随机变量相依性的信息.而两个随机变量相依性的信息包含 
在多元矩母函数中，下面给出定义. 

考虑同一试验中的 n 个随机变量 X !，…， X n . 记&，•••，〜为无量纲实参数. 
多元矩母函数是这 n 个参数的函数，它定义为 

M Xl ,.., Xn ( s u ■■- , S „)= E [ e ^+-+ s " x "]. 

前面讨论过的矩母函数的可逆性可以推广到多元情形，即如果 k ，… ， y „ 是另一组 
随机变量，且 M Xl ,.., Xn ( si , ■■- , Sn ) ^ M Yu ..., Yn ( Sl ,--- , s n ) 相同，则 X ir -- , X n 
的联合分布与的联合分布相同. 

4.5 随机数个相互独立的随机变量之和 


到现在为止，我们讨论过的随机变量求和的问题中，总是假定随机变量个数是 
已知且固定的.在本节中，我们考虑这样的 情况： 在随机变量求和的过程中，随机 
变量的数目本身也是随机的.特别地，我们考虑 

Y = X x + --- + X n , 

这里 iV 是个取正整数值的随机变量，，…是同分布的随机变量（如果 N = 0, 
则定义 F = 0). 假定 N,X 1 ,X 2 ,-.. 彼此独立，即这些随机变量的任意有限子集都 
是独立的. 

下面我们记 E [ X ] 和 var ( X ) 分别为&的公共的均值和方差.我们想要求出 
^的均值、方差和矩母函数.我们使用的方法为先给定一 个条件 N = n, 这样我们 
就将情况转化为常见的 情况： 求固定数目随机变量和的问题. 

确定某非负整数 n . 随机变量右+… + X „ 与 iV 独立.由此可知， X 1 + -.-+ X „ 
与事件 {iV = n } 相互独立.因此， 

E [ F|JV = n ]= E [ X x + •••+ X n \N = n] 

= E[X x + ■ ■ ■ + X n \N = n] 

—E[Xi + • • • + X n ] 

= nE[X]. 

这对于任意正整数 n 都成立.因此 


E[Y|iV] = NE[X]. 
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使用重期望法则，有 

E [ Y ] = E [ E [寧] ] = E [ iVE [ X ]] = E [ X ] E [ iV ]. 

类似地， 

var ( y|AT = n ) = var(Xi + … + X^\N = n ) 

= var(Xi + … + X n ) 

= nvar ( X ). 

因为这对任意正整数 n 都是成立的，随机变量 var ( y |7 V ) 等于 iVvar ( X ). 我们现在 
运用全方差法则得 

var ( y )= E [ var ( y | AT )] + var ( E [ y | AT ]) 

= E[AT V ar(X)] + v & i ( NE [ X )] 

= E[AT]var(X) + (E[X)]) 2 var(AT). 

矩母函数的计算和上面的计算类似.基于条件 AT = n 的 Y 的矩母函数为 
E [ e^|iV = n ]. 但是，基于 JV = n 的条件， y 是独立随机变量右，…，的和，且 

E [ e sY \N = n } = E [ e sXl … e sX ^ |iV = n ] 

= E[e sXl _..e sAV >] 

= E[e sXl ].--E[e sX "] 

= ( Mx ( s )) n , 

这里 M x ( s ) 为 的矩母函数（对于任意 i ). 运用重期望法则，: K 的（无条件）矩 
母函数为 

My ( s ) = E[e sy ] = E[E[e sy |AT]] = E[(M X ⑷广 ]= f ； (M x ⑷广 PJV (n). 

n=l 

与下列公式相对照 

財)= E [，卜 

n=l 

可见 M k ( s ) 和 M n ( s ) 形式完全相同，或者等价地，将 M n ( s ) 的表达式中所有 e s 
用 M x { s ) 替换即可得到 M y ( s ). 

下面总结推导出的性质如下. 
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随机数个相互独立随机变量之和的性质 

记 •… 为均值 / x 、 方差 a 2 的同分布随机变量.记 iV 为取值于正整数 
的随机变量.我们假定上述所有变量相互独立，下面考虑变量和 

y = X! + • • • + 

那么： 

• E [ F ] = E [ X ] E [ iV ], 

• var ( y ) = var ( X ) E [ iV ] + ( E [ X ]) 2 var ( iV ). 

• 矩母函数 M y ( s ) 可由计算矩母函数 M n ( s ) 的公式得到，将其中的 e s 全 
部替换成 M x ( s ) 即可. 


例 4.34 一个遥远的村庄有三家加油站.每家加油站在任意一天营业的概率都是 
1/2,而且各家的营业与否都是相互独立的.各家加油站的汽油存量是相互独立的 
随机变量,其分布都是0到1 000加仑之间的均勻分布.我们想要刻画营业的加油 
站汽油存量总和的概率分布规律. 

营业加油站的数目 AT 是服从 p = 1/2 的二项随机变量，相应的矩母函数为 
M n (s) = (1 — p + pe s ) 3 = ^(1 + e 8 ) 3 . 

每家营业的加油站的汽油存量的相应矩母函数 M x (s) 为 

p l 000 s _ 1 

^ = ^000^- 

汽油存量总和 y 的相应矩母函数可通过 m n ( s ) 来计算，把 m n ( s ) 公式中的#替 
换成 Mx{s) 即可，即有 


脚⑷ “(l+f:。: 1 ))' □ 

例 4.35 (个数服从几何分布的独立指数随机变量之和）简为买一本《远大前程》 
的书逛了很多家书店.每家书店有这本书的概率都是 p , 且与其他书店相互独立.逛 
任意一家书店，简停留的时间都是随机变量，服从参数为 A 的指数分布，直到她找 
到这本书或者她肯定这家书店没有这本书后才离开.假定简会一直逛下去直到她 
买到这本书，且她在每家书店停留的时间与其他任何事情都独立.我们希望求出简 
逛书店的时间总和的均值、方差和概率密度函数. 

简逛的书店数目 iV 服从参数为 p 的几何分布.因此，在书店中花费的总时间 
Y 是 N 个独立同分布指数随机变量 X !, X 2 , …，的和，其中 变量足 服从指数 
分布，参数为 A . 我们有 

E[Y] = E[iV]E[X] = --i 

V X 
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运用几何分布和指数分布随机变量的方差公式，得到 

var ( y ) = E [ AT ] var ( X ) + ( E [ X ]) 2 var ( iV ) = - — + 4 




为得到矩母函数 My ( s ), 首先有 


将 M n ( s ) 公式中每个 e s 都换成 Mx ( s ), 即得 


pM x ( s ) 

(1 -p)Af x (s) 


- LtJ -x 一 、 . 

p \ — S 

这就是服从参数为 pA 的指数随机变量的矩母函数，所以， 


这个结果很令我们惊讶，因为定数 n 个独立指数随机变量和反而不服从指数分布. 
例如，当 n = 2时,变量和的矩母函数为 ( A/(A - S )) 2 , 这与指数随机变量的矩母函 
数不相符. □ 

例 4.36 (个数服从几何分布的独立几何随机变量之和）本例是与前例对应的一 
个离散类型.我们记 AT 服从参数为 p 的几何分布.同时记每个随机变量足服从参 
数为 g 的几何 分布. 假定这些随机变量都是独立的.记 Y +…+ 我们有 

为了计算 M y ( s ), 先从计算 M n ( s ) 的公式入手，并且将公式中出现的 e * 都用 M x { s ) 
替换_这样有 

My { s ) = ― PMX{S) ^ 

经过计算，有 

脚(和 r - n)〆 

这样即推断出 y 服从参数为 M 的几何分布. □ 
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4.6 小结和讨论 

在本章，我们学习了很多内容.这里我们总结一下其中的一些重点. 

在 4.1 节里，我们介绍了一个连续随机变量 X 的函数 g [ X ) 的概率密度函数 
的计算方法.运用分布函数的概念非常有用.特别地， g ( X ) 的密度函数是通过计 
算它的分布函数，然后对其进行微分而得到的.在很多情况下， g ( X ) 是严格单调函 
数，那么可以通过特殊的公式来直接计算密度函数.我们同时也考虑了两个连续随 
机变量函数 g ( X , Y ) 的密度函数的计算问题.特别地，我们推导出两个独立随机变 
量和的概率密度的卷积公式. 

在 4.2 节，我们介绍了协方差和相关系数的概念，它们都是量化两个随机变量 
之间的关系大小的指标.协方差，相关系数都可以用于计算相关的随机变量和的总 
方差.它们在 8.4 节中线性最小二乘估计方法也会大有作为. 

在 4.3 节中，我们重新考虑关于条件的话题，目的是导出条件期望和条件方差 
的有用工具.对条件期望进行了大量的研究和分析，结果表明条件期望可视为随机 
变量，也有自己独特的期望和方差.我们推导了许多性质，包括重期望法则和全方 
差法则. 

在 4.4 节中，我们介绍了随机变量的矩母函数以及矩母函数是怎么算出来的. 
反过来，我们指出给定一个矩母函数，这个与矩母函数相关联的随机变量的分布是 
唯一确定的.对于常用的随机变量，可利用矩母函数表査到其相应的矩母函数.我 
们发现矩母函数有以下很多有用的 用途： 

( a ) 随机变量的矩母函数提供了一种计算随机变量矩的 捷径； 

( b ) 两个独立随机变量和的矩母函数等于它们各自矩母函数的乘积，这个性质 
用来说明两个独立正态（泊松）随机变量的和也是正态（泊松）分布； 

( c ) 矩母函数可以用来确定个数为随机数的随机变量和的分布（见 4.5 节)，其 
他的方法是不可能做到这一点的. 

最后在 4.5 节中，我们推导出个数为随机变量的独立随机变量和的均值、方差 
和矩母函数的计算公式，这其中综合运用了 4.3 节和 4.4 节中的方法. 

习 题 

4.1 节随机变量函数的分布密度函数 

1. 如果 X 是 -1 到1之间的均匀随机变量，求出和- ln | X | 的密度函数. 

2. 试用 X 的密度函数来表示 e x 的密度函数.然后求出当 X 服从[0，1]区间的均匀分布 
时， e x 的密度函数. 

3. 试用 X 的密度函数来表示 IXj 1 / 3 和阅 1 / 4 的密度函数. 
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4. 城铁从早上6:00开始，每隔15分钟到达你家附近的车站.你每天早晨在7:10到7:30之 
间的某时刻到达车站.设到达时间为一个随机变量，其分布已知（见第3章中例 3.14 的 
分布).记 X 为你到达车站的时刻与7:10之间的时间长度（单 位： 分钟).记 y 为你上 
车之前需要等待的时间.试用 X 的分布函数来表示 F 的分布函数，然后求导，计算 y 
的密度函数. 

5. 设 X 和 y 是相互独立的随机变量,均服从[0, 1] 的均匀分布，求 IX - F | 的分布函数和 
密度函数. 

6- 在笛卡儿坐标系中，设 (X,Y) 是在三点（0，1)，(0,- 1),(1,0) 围成的三角形内均匀分布 
的随机点，求出 |X - F | 的分布函数和密度函数. 

7. 从区间[0, 1] 中随机地、独立地、均匀地选出两个点，证明这两个点之间距离的期望值是 
1/3. 

8. 设 X 和 F 是相互独立的随机变量，均服从参数为 A 的指数分布，求 Z = X + y 的密 
度函数. 

9. 再次考虑例4.9,但是假设 X 和 y 分别服从参数为 A 和//的指数分布，求 Z = X - y 
的密度函数. 

10. 设 X 和 F 是相互独立的随机变量，它们的分布列 如下： 

1 1/2，若 y = 0， 

1/3，若 y = 1， 

1/6， 若 y = 2, 

0，其他， 

请用卷积公式计算 Z = X + Y 的分布列. 

11. 请用卷积公式 证明： 两个分别服从参数为 A 和 M 的泊松分布的随机变量之和仍然是泊 
松分布，其参数为 A + M . 

12- 设 X ， F , Z 是服从区间[0，1]的均勻分布的独立随机变量，求 X + y + Z 的密度函数. 
13- 设一个密度函数只在区间 [ a ，6] 上取正值,且关于区间中点 (a+b)/2 对称.设 A ■和 F 相 
互独立，且具有这样的密度函数.如果已经计算出 x + y 的密度函数,如何计算 x-y 
的密度函数. 

14. 竞争型指数 分布. 设两盏灯泡的寿命 x 和 y , 相互独立，且分别服从参数为 a 和 M 的 
指数分布.则首先用坏的时间是 


px(x ) = 


1/3，若 x = l ，2,3, 
0， 其他； 


Pv ( y ) 


Z = min { X , y }. 


试 证明： Z 也是服从指数分布，参数为 A + / X . 

15.* 柯西随机变置 


⑷设 X 是_1/ 2 与1/2之间均匀分布的随机变量，证明 F = tan ( nX ) 的密度函数是 


fy ( y ) = 


Jt(l + 2/ 2 ) 


—oo <y < oo. 


( Y 称为柯西随机变量 .) 
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( b ) 设 y 是柯西随机变量，设 X 是位于 - n / 2 和 Jr / 2 之间的角度数，满足 tan ( X ) = F . 
求 X 的密度函数. 

解 （ a ) 首先注意到 y 是连续的，且关于 X 的严格递增的函数.当 X e [-1/2, 1/2] 
时， y 的取值空间位于 _ oo 和 oo 之间.所以对任意实数仏 

Fy(y) = P(K (y) = P(tan(itX) 彡 y) = P(nX ^ tan -1 y) = | + ^ tan _ 1 y, 

最后一个等式是运用了 X 是 -1/2 与1/2之间均勻分布的随机变量的分布函数的 
性质 • 所以，通过求导，并利用公式 d / dj /( tan - 1 2/ ) = 1/(1+ j / 2 ), 我们可以得 到：对 
任意的实数 y , 

( b ) 首先计算 X 的分布函数，然后求导就可以得到其密度函数.对任意的 - Jt /2 < x 在 
Jt/2, 我们有 

P(X ^ x) = PCtan -1 Y ^x) 


= P(y ^ tana:) 



=—(x + Jt/2). 
jt 


当 x < -Jt/2 时， P(X < x) = 0, 而当: c > Jt/2 时， P(X ^x) = l. 对分布函数 
P(X ^ x ), 进行求导，可以看出 X 的分布是在区间 [- Jt /2, n /2] 上的均匀分布. 
值得注意的是，柯西分布的一个有趣的性质是 

r 巧子^ 一 - /二兩子巧办=°°’ 

这个性质很容易验证.所以柯西分布没有期望值，尽管分布关于0点对称.见 3.1 节中 
关于连续变量期望的定义的备注. 

16.* 两个独立正态随机变 量的极 坐标. 设 x 和 y 是独立的标准正态随机变量.对可 
以使用极坐标来描述，记 ii > 0和夹角 e e [0,2峒，贝 IJ 

X = Rcos 0, Y = iisin ©. 

( a ) 证明 0 在区间 [0,2 n ] 均勻分布， i ? 具有密度函数 

fnir) = re~ r2/2 , r ^ 0, 

并 且丑和 0相互独立.（随机变量 ii 通常称为瑞利分布 

( b ) 证明丑 2 的分布是参数为 I / 2 的指数分布. 

注意， 利用该题的结论,我们可以看出，正态分布的随机样本可以通过独立均匀分布样本 
和指数分布样本来产生. 
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解 （ a ) X 和 Y 的联合分布密度是 

1 e -( x 2 + y 2 )/2 

fx,Y(x,y) = fx(x)f Y (y) = — ■ 

现在我们来求丑和 e 的联合分布.固定 r " > 0和0 e [0,2 ji ]. 定义集合 a 是点 
{x,y) 的 集合： 点的极坐标 （ f , 句满足0彡 f < r , 且0彡沒彡注意,集合 A 是以 
r 为半径, 夹角为0 的扇形.所以 


F R ,e(r,0) = P(R^r,e^e)= P((A ： ,y) £ A) 


= 士 / 乂 ）^ exp(-(a: 2 + y 2 )/2)dxdy = ^ J q J q exp(-r 2 )fdfd0 


最后一个等式利用了极坐标的转换.求导，可得 



X /„/)、 9Fr,b{t, 9) r . 

fH , e ( r ,0)- drdg - 2 , 

_r2/2 , r^o,ee [o,2jt]. 

因此 




fR ( r ) = r f R Mr,e)de 
Jo 

=re - 7 ' 2/2 ，r ^ 0, 

而且 




feMO \ r )=^^ = ^, ^[ 0,24 


因为0的条件分布函数 / e | Ji ⑼ r ) 与丑的值无关，所以，它必与无条件密度 / e 是 
一样的.特别地， f R , e ( r ,0) = fR ( r ) fe ( e ), 所以 ii 与0是相互独立的. 

( b ) 记^ 0. 我们有 


P ( R 2 ^ t ) = P(R ^ y / t ) = / re -7,2//2 dr = [ e~ u du = e _ " 2 , 

Jsft Jt /2 

这里我们运用了变量替换 w = r 2 /2. 求导可得 

= i e - t/2 , t^O. 


4.2 节协方差和相关 

ir . 假设随机变量 x 和 y , 具有相同的方差， 证明： x + y 与 x - f 不相关. 

18. 假设有4个随机变量， w , 足 y , z , 满足 

E [ W ] = E [ X ] = E [ Y ] = E [ Z ] = 0, 

var(W) = var(X) = var(y) = var(Z) = 1, 

假设 W , X , Y,Z 相互之间两两不相关.计算相关系数和 p ( R , T ), 这里丑= 
W + X,S = X + Y , 以及 T = F + Z . 
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19. 假设随机变量 X 满足 

E [ X ] = 0, E [ X 2 ] = 1, E [ X 3 ] = 0, E [ X 4 ] = 3. 

定义新的随机变量 

Y = a + bX + cX 2 . 

计算相关系数 p ( X ， Y ). 

20/施瓦兹不等式.证明对任意的随机变量 A ： 和 y , 均有 


(E[xy ]) 2 < E[x 2 ]E[y 2 ]. 

解 假设 E [ F 2 ] / 0,否则， P(F = 0) = 1，有 E [ XY ] = 0,所以不等式成立.我们有 


=寧1- 2 ^寧的 


2 ( E [ xy ]) 2 

— E[X]_i[ y2] ， 

即， ( E [ A ： F ]) 2 < E [ X 2 ] E [ y 2 ]. 

21.* 相关系数. 考虑随机变量 X 和 y 的相关系数 

cov(x,y) 

\J var(X)var(y) 

并假定它们的方差为正. 证明： 

( a ) | p ( X , F )| ^ 1. 提示： 用上题的施瓦兹不等式. 

( b ) 如果 y - E [ Y ] 是 X - E [ X ] 的正（或负）倍数,那么 p ( X , Y ) = 1( 或者 p ( X , Y ) = -1, 
相应地). 

( c ) 如果 p { X , Y ) = 1( 或者 p ( X , Y ) = -1), 那么 ，: K - E [ Y ] 概率为 1 地为 X - E [ X ] 
的正（或者相应地为负）倍数. 

解 （ a ) 记 X = X - E [ X ] 以及殳 = y - E [ Y }. 用施瓦兹不等式，得到 


(侧 2 = 


所以有 \ p ( X , Y ) ^ 1|. 
( b ) 如果 F = aX , 那么 


P(X,Y) = 


E [ XaX ] 


VE [^] E [(^] 
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那么由题20可得 


( c ) 如果 ( p ( X , Y )) 2 

♦—醬卟中 — 2 鬻…纖鬥 


=E[^ 2 ]-2|p^E[xy]. 


( E [ xy ]) 2 

( E [ r 2 ]) 2 


E[y 2 ] 


= E [ X 2 ] - 


( E [ xy ]) 2 

E[F 2 ] 


=E[^](i_( p( x,y)) 2 ) 
= 0 . 


因此，概率为 i 地，随机变量 

交 mY]y 

X ~W^] 

等于 0. 由此得到，概率为1地， 



即， X 和歹 的倍数关系的正负号由 p{X,Y) 决定. 

4.3 节条件期望和条件方差 

22. 设一个赌徒每次贏或输的概率分别为 p 和1 - p ， 而且每次输贏与以前独立.当 p > 1/2 
时，一个流行的赌博方法（称为 Kelly 策略）是每次赌上当前资产的 2 p - 1部分.设初 
始资产为 z 元，计算经过 n 次赌博之后，运用 Kelly 赌博策略，计算其资产的期望值. 

23. 潘特和纳特在约会，他们所有的约会都在晚上9点以后.纳特总是在9点的时候到达， 
而潘特比较散漫，她到达的时间是均勻分布在8点和10点之间的.记 X 是8点和潘特 
到达时间的间隔时间.如果潘特在9点之前到达，他们的约会将持续3小时.如果潘特 
在9点以后到，他们的约会持续的时间是均匀分布在0和 3 -X 小时之间的.他们的约 
会在他们见面后开始.当潘特迟到的时候，纳特会很生气，并且会在他们的第二次约会潘 
特迟到多于45分钟的时候结束他们的关系.所有的约会都是相互独立的. 

( a ) 纳特等待潘特的小时数的期望是多少？ 

( b ) 一般约会持续时间的期望是多少？ 

( c ) 在他们分手之前他们约会次数的期望是多少？ 

24. 一位退休教授到办公室的时间服从早上9点到下午1点的均勻分布，然后他做一件工作, 
完成这个任务后就离开办公室.这项任务完成的时间服从参数为 A ( y ) = 1/(5 _幻的指 
数分布,这里2/是9点和教授到达时刻的时间段长度. 

( a ) 教授完成任务需要时间的期望是多少？ 

( b ) 任务完成时刻的期望是多少？ 

( c ) 现在，换一种情况.这位教授除了完成他本人的任务外，他还有一个博士生，这个学 
生会在指定的一天去找教授,学生去找他的时刻服从从早上9点到下午5点的均勻 
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分布.如果这个学生没有找到教授，就离开并且不回来了.如果找到了教授，他将会 
和教授一起待一定的时间，这段时间服从0到1小时的均匀分布.教授总在他自身 
的任务上花同样的时间，不管他是否被这个学生打扰.这一天,教授和学生在一起的 
时间的期望是多少？教授离开办公室的时间的期望是多少？ 

25. * 证明： 对任意的离散型或者连续型随机变量 X ，以及另一个随机变量 y 的任意函数 g ( Y ), 

都有 E [ x s ( y )| y ] = g ( y ) E [ x | y ]. 

解 假设 X 是连续的.由第3章的条件期望公式可得 

E [ X S ( y)|y = y ]= 厂 xg ( y ) f xlY ( x \ y)dx 

= g(y) J xfx \ Y { x \ y)dx 

= g ( y ) m\Y = y ]- 

这就证明了随机变量 E [ Xg ( y )| r ] 的每一个实现值 ^[ Xg { Y )\ Y ^ y \ 与随机变量 ff ( y ) E [ x|y 
的每一个实现值 g ( y ) E [ X\Y = y ] 总是相等的，所以这两个随机变量也总是相等的.当 
X 是离散的时，证明类似. 

26. * X 和 Y 是独立的随机变量.用全方差法则证明 

vai ( XY ) = ( E [ X ]) 2 var ( y ) + ( E [ y ]) 2 vax ( X ) + var ( X ) var ( F ). 

解 让 Z == xy . 全方差法则说明 

var ( Z ) = vax { E [ Z \ X }) + E ( var ( Z | X )). 

我们有 

E [ Z \ X ] = E [ XF | X ] = XE [ y ], 

所以 

var ( E [ Z | X ]) = var ( XE [ y ]) = ( E [ y ]) 2 var ( X ). 

进一步地， 

var (寧） = vax ( Xy | X ) = X 2 var ( y | X ) = X 2 var ( r ), 

所以 

E [ var ( Z | X )] = E [ X 2 ] var ( F ) = ( E [ X ]) 2 vax ( Y ) + var ( X ) var ( y ). 

结合前面的关系，我们得到 

vax ( A ： y ) = ( E [ X ]) 2 var ( y ) + ( E [ y ]) 2 var ( X ) + vax ( X ) var ( K ). 

27. * 我们投掷 n 次不均匀的硬币，且每次正面朝上的概率为 g , 9 值的大小是随机变量 Q 可 

能的取值， Q 的均值是/ X ,方差 a 2 > 0•设不为第 i 次投掷结果的伯努利随机变量（即 
第 i 次投掷硬币正面朝上，不=1,否则兄= 0). 假设 Xx ,-.. , X „ 在给定 Q = g 时， 

是条件独立的.记 X 为 n 次投掷硬币，正面朝上的总次数. 

( a ) 运用重期望公式，计算 E [ Xi ] 和 E [ X }. 
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(b) 计算 co V (Xi, Xj). X lr -- ,X n 独立吗？ 

(c) 运用全方差公式，计算 var(X). 并运用 （ b) 中的结果来验证 . 

解 （ a) 运用重期望公式以及 ElXilQ] = Q, 

E[Xi] = E[E 闷 Q]] = E[Q] = fx. 

因为 X = Xi + ... + X „， 则有 

E[X] = E[Xj] + •••+ E[X„] = n^i. 

(b) 当 i# 乂使用条件独立假设可得 

miXAQ] = E[X i |Q]E[^|Q] = Q 2 , 

以及 

所以 

coviX^Xj)^ ^[XiXj] - E^JE^] = E[Q 2 ] - fj, 2 = a 2 . 

因为 CO v(Xi ， 4) > 0, 所以不， … ， X„ 不独立 . 

当 i = j 时，因为观测值 X, 2 = Xi, 

vax(X i ) = E[Xf] - (E[Xi]) 2 
= HXi] - (E 闷 ) 2 
=p 〆 

(c) 运用全方差法则和 X lr . 、 X n 的条件独立性，我们有 

vax(X) = E[vax(X|Q)] + var(E[X 】 |Q) 

= E[var(Xi + … + X„\Q)] + var(E[Xi + … + X n \Q]) 
=E[nQ(l - Q)] + var(nQ) 

=nE[Q - Q 2 ] + n 2 var(Q) 

= n(fi - n 2 - a 2 ) + n 2 cr 2 
= n(^ - /x 2 ) + n(n - l)a 2 . 


并运用 （ b ) 中的结果来验证上式，我们可得 


var(^f) = var(_X"i + • • • + X n ) 

= vax(X0 + Y, coviX^Xj) 
i==1 

=nvar(Xi) +n(n - l)cov(Xi,X2) 

= n(fi — fj, 2 ) + n(n — l)cr 2 . 
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28.* 二维正态分布密度函数 . （零均值）二维正态分布密度函数具有如下形式 

fx,v{x,y) = ce" q{x ' y \ 


其中指数部分的函数 q(x,y) 是 x 和 y 的二次多项式, 


q(x,y) = 


~ 2(1 - P 2 ) ^’ 


这里〜和％是正实数， p 是常数，满足 -1 < p < 1， c 是归一化常数. 

(a) 完成平方项，即把 g(:r, 2 /) 写成 （ aa ;- 办) 2 + 72/ 2 ,其中 a ,/3, j 是 常数. 

( b ) 证明 x 和 y 分别是期望为0,方差为4和4的正态分布. 

(c) 求出归一化常数 c. 

( d ) 证明在给定 Y = y 的条件下， X 的条件密度函数是正态的，并求其期望和方差. 

(e) 证明 X 和 y 的相关系数是 p . 

( f ) 证明 X 和 y 的相互独立的充要条件是它们不相关. 

( g ) 证明估计误差 E [ X \ Y ]- X 是正态的，均值为0,方差为 （1 - p 2 ) al , 而且与 Y 是独 
立的. 

解 （ a) 可将 q(x,y) 写成下面的形式 


9 (*. 2 /) = Qi{x,y) + q2(y), 


其中 2 2 

9i(a：!2/) = 2(1^7) j q2iy} = h y - 

(b) 由 （ a ) 可得 

f Y (y) = c 厂 e- q ^ x ' v) e- q ^ y) dx = ce _ 92 ⑷厂 e~ qAx ' v) dx. 

运用变量替换 


~Pt 


可得 


所以 


/ I ' 


r ^^ dx ： 


fv{v) 


r 2 J e~ u2 ^ 2 du = a 

’1 一 o 2 \f2neT y2 ^ 2a y . 


这就是均值为0,方差为 g 的正态分布密度函数.由对称性，也可证得 X 也是正 
态的. 

(c) y 的密度函数的归一化系数一定为 i/(v^a y ). 所以 

ccr x \/l — p 2 V2jr = 1/ (-\/2jt cry), 
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从而 
( d ) 因为 
和 

所以 


fx,y(x,y) = 


27UT x (Ty y/l — p 2 


rCTyy/l-p 2 


純 ) = ^1^)， 


fx\v{x\y)= 


fx,v{x,y) 


*p|- 


(x - pcT x y / a y ) 2 } 
2< tI (1- P 2 ) / 


fHy) _ \/2jto- lV /i -p 2 
对任意给定的 1 /，这是均值为 pa x y/(7 v , 方差为 ^(1- p 2 ) 的正态分布密度.特别 
地，我们有 E[X\Y = y] = (ph/crA 和 E[X\Y] = {pa x /a v )Y. 

( e ) 运用期望公式和重期望法则，可得 

E[XY] = E [ E [^ y | F ]] 

= E[YE[X\Y]] 

= ^[ Yipa ./^ Y ] 

= pa x /(TyE[Y 2 ] 


所以相关系数 p(X,Y) 等于 

p{XtY) = ^ iX 2 Y ) = ElXY] =p 

O'xf^y (Tx 0"y 

( f ) 如果 X 和 y 不相关，则 p = 0 , 而且联合分布密度满足 fx,Y(x,y) = fx(x)fy(v), 
所以 x 和 y 独立. 反之，若 X 和 F 独立，则它们自动不相关. 

( g ) 从结论⑷可知，给定 y = 2 /的条件下， X 是正态的，均值为 E[X\Y = y], 方差为 
(1 — p 2 )^. 所以 ，给定 Y = y 的条件下，估计误差 X = E[X\Y = y]-X 是正态 
的，均值为0,方差为 （1- P 2 )<^， 即 

既然文的密度不依赖于 y 的值 y ， 所以 x 与 y 独立，而且上式条件密度也是 X 
的无条件密度. 

4.4 节矩母函数 

29 .设 X 为取值1， 2 ,3的随机变量，分布列 如下： 

P(X = 1) = |, P(X = 2) = i, P(X = 3) = i 
求 X 的矩母函数并且用它得到前三个矩， E[X],E[X%E[X 3 ]. 
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30. 计算标准正态随机变量 X 的 E [ X 3 ] 和 E [ X 4 ] 

31. 计算参数为 A 的指数分布的三阶，四阶，五阶矩. 

32. 一个非负的整数随机变量 X 有以下两个表达之一作为它的矩母 函数: 

⑴ MW= e 2 ( ee : _1 -D ; 

(2) M ( s ) = e 2(eeS - 1) . 

( a ) 解释为什么这两者中的有一个表达式不是矩母函数. 

( b ) 用真矩母函数计算 P(X = 0). 

33. 计算具有下列矩母函数的连续随机变量 X 的概率密度函数 


34. 设一个足球队有3名球员，轮流罚点球.第 i 个球员踢中点球的概率为 Pi ， 而且与其他 
球员是相互独立的.设每个球员有一次罚点球机会，记叉为三名球员踢球完后踢中的总 
次数.运用卷积公式计算 X 的分布列.计算 X 的矩母函数，然后再计算 X 的分布列. 
看看这两个结论是否一致. 

35. X 为取值非负整数的随机变量，并且具有以下矩母函数 


M x ⑷= c . 


3 + 4 e 2s + 2 e 3s 


3- e s 


这里 c 是一个常数.计算 E [ X ], px ( l ) 以及 E [ X|X # 0]. 


36. X,Y,Z 是独立的随机变量， X 为参数为1/3的伯努利分布， y 为参数为2的指数分布， 
Z 为参数为3的泊松分布. 

( a ) 考虑新的随机变量 U = XY + (1- X)Z. 计算 t ； 的矩母函数. 

( b ) 计算 2 Z + 3的矩母函数. 

( c ) 计算 y + Z 的矩母函数. 

37. 一个比萨店提供 n 种不同的比萨饼，在一段时间内，有 K 个顾客来消费，其中 K 是取 
非负整数的随机变量，且已知其矩母函数是 MkM = E[e sK ]. 每个顾客订一种比萨饼， 
而且订哪种的概率都是相同的，与其他顾客是独立的.请以 M K {s) 来表述预定的比萨饼 
的种类数的期望. 

38. * X 是取值为非负整数的离散随机变量. M ⑷是 X 的矩母函数. 

( a ) 证明 

P(X = 0) = Um M{s). 

( b ) 用 （ a ) 证明下列 结果： 如果 X 是服从参数为 n 和 p 的二项分布的随机变量，我们 
可以得到 P(X = 0) = (1 - p 广.进一步，如果 X 是服从参数为 A 的泊松分布的随 
机向量，我们可以得到 P(X = 0) = e -\ 

( c ) 假设已知为只取大于或者等于已知整数 E 的整数.运用 X 的矩母函数我们怎 
么计算 P(X = fc)? 

解 （ a ) 我们有 


M ( s ) = ^ P(X = fc ) e fcs . 
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当 s — > — oo 时，所有 e fcs ，fc > 0趋向于0,所以我们得到 M ( s ) = P(X = 0). 
( b ) 在二项分布的条件下，我们可以得到矩母函数 °° 


M ( s ) = ( l-p + peT , 

所以 s Hm o M ( s ) = ( l - p ) n . 在泊松分布的条件下，我们有 
M(s) = e A(eS - 1) , 

所以 lim M(s) = e~ x . 

( c ) 随机变量 Y = X~k 只取非负整数值，相应的矩母函数是 My(s) = e - s ^ M ( S )(# 
考例 4.25). 因为 P(F = 0) = P(X = k ), 我们从⑷得郵， 

P(X = fe) = ■⑷. 


39. 均匀随机变量的矩母函数 

( a ) 计算在 { a . o + l ,--. ，&}上的整数均勻分布随机变量 X 的矩母函数. 

( b ) 计算在区间 [ a ，6] 上均勻分布的连续随机变量 X 的矩母函数. 

解 （ a ) X 的概率密度函数是 


矩母函数为 



若 fc = a,a + 1, . •. ，6, 
其他. 


M ( s )= e sk P(X = k ) 


^TYp sk 

e sa 1 一 e 沒 (&_a+i) 


( b ) 我们有 

M ( s ) = E [ e sX ] = f a ~ 
40.* 假设离散随机变量 X 的矩母函数有下列形 g 


s(b — a ) 




这里 A ⑷和 S ⑷都是 i 的多项式.假设 A ⑷和 S ⑷没有共同根，而且 A ⑷的次数比 
S ⑷ 的小 . 假定 B ( t ) 的所有根是绝对值大于1的互异非零实根.那么可以看出 M ( s ) 
可以写成下面形式 


M ( s ) = 
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这里 1/ n , •• - , l / r m 是 S ⑷的根，而且叫是等于 
的常数. 


lim ( l - ne s ) M ( s ), 


( a ) 证明 X 的分布列为 


i = 1， • • 


{ Y ' air - f , 若 fc = 0， l ，_--， 

i=l 

o , 其他. 


注意： 对于大的 fc , X 的概率密度函数可以通过 ai rf 来逼近，这里 I 是最大的 
假定 i 是唯一的）的相应的指标. 

( b ) 把⑷的结果推广到 M ( s ) = e bs A ( e s )/ B ( e a ) 的情况，&为整数. 

解 （ a ) 对于所有的满足条件 | n | e s < 1的 s , 我们有 


1 - ne s 


=1 + ne s + n 2 e 2s + •••. 


因此, 


M ( s ) = Oj + 




根据矩母函数的定义，我们得到 


P(X = k) = Y t ^ 


对于所有的 fe ^ O 成立，并且对于 fc < 0, P(X = fc ) = 0. 注意如果系数 ai 为非负 
实数的话，这个分布列为几何分布列的混合. 

( b ) 在这种情况下， M ( s ) 相当于矩母函数为 A ( t )/ B ( t ) 的随机变量通过平移6以后所 
得到的矩母函数（参考例4.25)，所以我们有 

若免= 6，& + 1，…， 

P(X = fc ) = ^ 

[ o , 其他. 

4.5 节随机数个相互独立的随机变量之和 

41. 在某一确定时间，进入电梯的人数服从参数为 A 的泊松分布.每个人的体重都是相互独 
立的，并且服从100磅到200磅之间的均勻分布 . 是第 i 个人超出100磅部分与100 
的比值，例如，如果第7个人重175磅,那么义 7 = 0.75. y 是诸的和. 

( a ) 求 y 的相关矩母函数. 

( b ) 用矩母函数计算 y 的期望值. 

( c ) 用重期望法则证明 （ b ) 的答案. 

42. 构造一个个数为随机的独立正态随机变量之和的非正态的例子（即使固定数目的独立正 
态随机变量的和是正态随机变量). 
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43. 一个摩托车手过4个红绿灯，过每个灯的时候红灯的概率都是 1/2. 在每个灯等待的时 
间由模型假设为均值为1分钟，标准差为1/2分钟的正态分布 . X 是在红灯前等待的总 
时间. 

( a ) 用全概率定理计算 X 的概率分布函数和相应矩母函数，并计算 X 超过四分钟的概 
率 . X 是正态的吗？ 

( b ) 把 X 看作个数为随机的各随机变量之和，计算 x 的相应矩母函数. 

44. 计算下列随机变量和的期望和方差， 

y = Xi + ■•• + X iV , 

其中 iV 自身也是整数随机变量的和，即 

N = Ki + . ■ ■ + Km - 

这里 AT , M , K U K 2 , ■■- , X lt X 2 , ■■- 都是独立的随机变量， iV , M , K U K 2 , ■■- 是取整数 
值的，且非负的随机变量，沁，沁,…分布相同，具有相同的均值 E [ K ] 和方差 var (^). 
Xi ， X 2 , …也具有相同的均值 E [ X ] 和方差 var ( X ). 

( a ) 用 E[M], vax(M),E[/S：], var(/ST) 来推导 E[iV] 和 var(iV). 

( b ) 用 E [ M ], var ( M ), E [ K ], vax ( K ), E [ X ], var ( X ) 来推导 E [ F ] 和 var ( F ). 

( c ) 一个板条箱里有 M 个纸盒, M 服从参数为 p 的几何分布.第 i 个纸盒含有&个 
小零件 ，& 服从参数为 p 的泊松分布，每个小零件的重量服从参数为 A 的指数分 
布.假定所涉及的随机变量都是独立的.求整个箱子的总重量的期望和方差. 

45. * 用矩母函数方法证明个数服从泊松分布的诸独立同分布的伯努利随机变量之和服从泊松 

分布. 

解记 iV 是服从参数为 A 的泊松分布的随机变量. X u i = I ,--- , N 是独立的成功概 
率为 P 的伯努利随机变量.令 

L = X \ - f - • • * + Xn 

是相应的和 . L 的矩母函数通过 iV 的矩母函数得到， AT 的矩母函数为 
M N ( s )= e x ^- 1 \ 

Xi 的矩母函数为 

M x (s) = 1 -p + pe s . 

通过 Xi 的矩母函数代替 e s ， 我们得到 

M l (s) = e ^(i-p+pe s -i) = 6 入 〆〆— 1). 

这就是参数为 Ap 的泊松分布的矩母函数. 
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在本章里，我们讨论随机变量序列的渐近性质.设 Xi ，… , x n> 为一个独立同 
分布的随机变量序列，其公共分布的均值为 M ， 方差为 < r 2 . 定义 

5„ = Xi + ---+X„ 

为这个随机变量序列的前 n 项之和.本章的极限理论研究&以及与&相关的变 
量在 n — oo 时的极限性质. 

由随机变量序列的各项之间的相互独立性可知 


var (5 n ) = var ( Xi ) + .. _ + var ( X n ) = no 2 . 

所以，当 n — oo 时，心是发散的，不可能有极限.但是样本均值 
M n = Xl + '" + Xra =么 

n n 

却不同.经过简单计算就可以得到 

E [ M „] = "， var ( M n ) = 

所以当 n — 00时，的方差趋于 0. 也就是说， M „ 的分布大部分就必然与均值 
" 特别接近.这种现象就是大数定律的内容，即随机变量序列 M „， 从大样本意义上 
看，收敛于 A 的均值 / x . 按通常的解释，当样本量很大的时候，从 X 抽取的样本平 
均值就是 E \ X ], 大数定律就为此提供了一个数学理论基础. 

下面考虑另一个随机变量序列 .用& 减去叩，可以得到零均值随机变量序列 
- n M ) 然后再除以 。我 就得到随机变量序列 

z n = s -^. 


易证明 ~ E [ Z n ] = 0, var ( Z n ) = 1. 

因为的均值和方差不依赖于样本容量 n , 所以它的分布既不发散,也不收 
敛于一点.中心极限定理就研究的分布的渐近性质，并且得出 结论： 当 n 充分 
大的时候，石 1 的分布就接近标准正态分布. 

极限理论的用处很多. 
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( a ) 从理论上看，极限理论将期望（或概率）和独立同分布试验序列之间的联系 
提供了合理的解释. 

( b ) 极限理论提 供了& 等随机变量序列当样本量 n 充分大时的近似性质.与 
精确方法比较，为了 了解& 的性质，精确方法需要计算^的分布函数或概率密 
度函数，但是在 n 充分大的时候，这些计算是非常复杂而且不得要领. 

( c ) 在使用大量观测数据集时，极限理论在统计推断中发挥主要的作用. 


5.1 马尔可夫和切比雪夫不等式 


本节介绍一些重要的不等式.这些不等式使用随机变量的均值和方差去分析 
事件的 概率. 在随机变量 x 的均值和方差易于计算，但分布不知道或不易计算时, 
这些不等式就非常有用. 

首先介 绍马尔可夫不 等式. 粗略地讲，该不等式是指，一 个非负 随机变量如果 
均值很小时,则该随机变量取大值的概率也非常小. 


马尔可夫不等式 

设随机变量 X 只取非负值，则对任意 a > 0, 

P ( X 彡〜 ® _ 
a 


现在来证明马尔可夫不等式.固定正数 a , 定义随机变量 F a ， 


V a = 



若 X < a , 
若 X 彡 a . 


易知 




总成立，从而 
另一方面 


所以 


E [ Y a ] ^ E [ X \. 

E [ F a ] = aP ( y o = a ) = aP(X ^ a ), 
aP(X > a ) ^ E [ X ] 


(见图 5_1 给出马尔可夫不等式的推导过程示意图). 
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图 5.1 马尔可夫不等式推导过程示意图.图 （ a ) 是非负随机变量 X 的概率密度函数.图 （ b ) 
是与 X 相关的随机变量匕的分布列.分布列的构造 如下： 把 X 位于0和 a 之间的 
所有质量都赋值于点0,大于等于 a 的质量都赋值于点 a . 因为所有的质量向左转移, 
所以期望必然减少，因此 

E[X] ^ E[Y a ] = aP(y a = a) = oP(X ^ a) 

例 5.1 设 X 服从 f /[0,4] 的均匀分布.易知 E [ X ] = 2. 由马尔可夫不等式可得 
P(X ^ 2)< ^ = 1, P(X > 3)< 暑= 0.67， P ( X >4)< 聲 =0.5. 

与真实概率进行比较 

P(X ^ 2) = 0.5, P(X ^ 3) = 0.25， P(X ^ 4) = 0. 

可以看出由马尔可夫不等式给出的上界与真实概率相差非常远. 口 

下面介 绍切比雪夫不 等式.粗略地讲，切比雪夫不等式是指如果一个随机变量 
的方差非常小的话，那么该随机变量取远离均值 M 的概率也非常小.注意的 是：切 
比雪夫不等式并不要求所涉及的随机变量非负. 


切比雪夫不等式 

设随机变量 X 的均值为 

M， 方差为 CT 2 , 则对任意 C > 0， 




下面来证明切比雪夫不等式.考虑非负随机变量 （X - / X ) 2 . 令 a = C 2 , 使用马 
尔可夫不等式，可得 
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寧 — 心〜堕^4. 

注意，事件|义 -/ il 2 > c 2 等价于事件 |X - > c ，所以 

P(|X - 心 c ) = P(|X - "| W 筌 

在证明切比雪夫不等式的时候也可以不使用马尔可夫不等式，其推理如下.不 
撇 X 是连续型随机变量，定义函数 

- / 0, 若 k — Ml < C 时， 

| c 2 , 若 | a : — /i| 彡 C 时. 

注意，对任意的 a;，（z — / x ) 2 > g ( x ), 所以 


a 2 = 



(x - fj ,) 2 f x ( x)dx ^ 



g ( x ) f x ( x)dx = c 2 P(\x — "I 彡 c )， 


这就是切比雪夫不等式. 

令 c = ，其中 fc 是正数.切比雪夫不等式的另一个版 本是: 


P(|X -/ i | > fca ) ^ ^ 

所以一个随机变量的取值偏离其均值 fc 倍标准差的概率最多 1/ fc 2 . 

切比雪夫不等式比马尔可夫不等式更准确，即由切比雪夫不等式提供的概率的 
上界离概率的真值 更近. 这是因为它利用了 X 的方差的信息.当然一个随机变量 
的均值和方差也仅仅是粗略地描述了随机变量的性质，所以由切比雪夫不等式提供 
的上界与精确概率也可能不是非常接近. 

例5. 2 (MM 5.1) 设 X 服从 t /[0,4] 的均勻分布.现在使用切比雪夫不等式来给 
出事件 |X - 2|彡1的概率 上界. 显然 d = |， /x = 2,则 

P(|X-2|^l)<y = ^. 

由于概率的值永远不超过1，所以这个不等式并不带来任何信息. 口 

现在看另一例子，设 X 服从参数 A = 1的指数分布，则 E [ X ] = var ⑷=1.对 
任意的 c > 1,使用切比雪夫不等式可得 

P ( X ^ c )= P ( X - l ^ c - l )< P (| X - l |^ c - l )^ 

( c — l ) 2 

而真实概率是 P(x ^ c ) - e ~ c . 可以看出由切比雪夫不等式给出的上界比较保守. 
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例 5.3 ( 切比雪夫不等式的上界） 设随机变量 X 取值空间是 [ a ， 6]，现在我们证明 
a 2 < (6 - a ) 2 /4. 因此，如果^未知，我们就可以用上界 （& - af / A 来代替切比雪 
夫不等式中的 a 2 , 即 

Y {\ x - ii \^ c ) < (b ~ 2 a)2 , 对任意的 c >0. 

为证明 a 2 < { b - af / A . 对任意的常数 7 ,我们有 

E[(X - 7 ) 2 ] = E [ X 2 ] — 2 E [ X ] 7 + 7 2 , 

而且该二次多项式在7 = E [ X ] 处达到极小.因此对任意的常数7,我们有 
( t 2 = E[(X — E [ X ]) 2 ]< E [( X — 7 ) 2 ]. 

令7 = ( a + 6)/2,可得 

a 2 < E [(X _ ^) 2 | = E [( X - a )( X - b )} + 

其中等式可以通过直接计算来验证，最后一个不等式成立的原 因是： 当工 e [ a ，&] 时 

(x — a)(x — b )^ 0 . 

上界 ( T 2 ^ (6 - a ) 2 /4 可能会非常保守，但是在 X 的信息缺乏更深的认识的 
情况下，这个上界很难更加精确.当 X 各以1/2的概率只取极端值 a 和&时， 
a 2 = (b — a ) 2 / A . 口 

5.2 弱大数定律 

弱大数定 律是指独立同分布的随机变量序列的样本均值，在大样本的情况下， 
以很大的概率与随机变量的均值非常接近. 

下面考虑独立同分布随机变量序列公共分布的均值为 / i ， 方差为 
^ 2 .定义样本均值 n 

n i=i 

则 

E[Mn] = mi±iii±nxA = ^ = 

n n 

再运用独立性可得 

“，、—+ • • • + X n ) var ( Xi ) + . - - + var ( X „) na 2 a 2 

V&T[Mn) = ^ ^ =7 = 1 . 
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利用切比雪夫不等式可得 

P (| M „ - m | ^ e ) < 对任意的 e > 0成立. 

注意,对任意固定的 e > 0,上面不等式的右边在 n — oo 时，趋于0,于是就得到如 
下的弱大数定律.这里要提到的 是：当 Xi 的方差无界时，大数定律仍然成立,但是 
需要更严格而精巧的证明，在此省略.因此,在下面陈述的大数定律中，只需要一个 
假设，即 E [ Xi ] 是有限的. 


弱大数定律 

设 , X n , ■•-独立同分布，其公共分布的均值为 M , 则对任意的 e > 0, 
当 n — oo 时， 

P(lM n — > e ) = P (|^~ + + " 卜 e) - 0. 


弱大数定律是指对于充分大的 n ， M „ 的分布的大部分都集中在 M 附近.设包 
含"的一个区间为 [/i - e，M +斗则位于该区间的概率非常大.当 n — oo 时, 
该概率趋于 1. 当然当 e 非常小时，则需要更大的 n ， 使得以很大的概率落在 
该区间内. 

例 5.4 (概率与频率）在某个试验中，考虑一个随机事件 A 记 p = P(4) 为事件 
A 发生的概率.现在假定在 n 次独立重复的试验中，记 M „ 为 n 次独立重复试验中 
事件乂发生的次数占总试验次数 n 的比例， M „ 通常称为事件 A 的频率.注意到 

义 1 ^- 1- x n 

Mn = ^ n —， 

其中足= 1 表示事件 A 发生,否则足 = 0. 特别地有 E[A] = p. 运用弱大数定律 
可以证 明：当 n 充分大时，频率以很大的概率落在 p 的 e 邻域里.也就是说频率是 
P 的一个很好的估计.换句话说，可以将事件4发生的频率解释为概率 p . 口 

例 5_5 (选举问题）设 p 为选民支持某候选人的 比例. 现在“随机”地对 n 个选 
民进行调査，然后计算这 n 个选民对该候选人的支持率 M „. 我们将 M „ 视为 p 的 
估计，并研究它的性质. 

“随机”的含义是指这 n 个选民是所有选民中的独立同分布样本.所以每个选 
民的回答也可以视为独立的伯努利随机变量足 ，石 =1表示选民支持候选人，或 
“试验成功”.成功的概率为仍的方差为 a 2 = p ( l - p ). 利用切比雪夫不等式可 
得 
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当然参数 p 的真值是未知的.另外注意到 P (1 - P ) < i 所以 
P (| M n - p | ^ e ) ^ 

比如 ， e = 0.1 ，n = 100 时， 

也就是说，在 n = 100的情况下，估计量 M n 与 p 的真值相差大于 0.1 的概率不超 
过 0.25. 

现在考虑另一个问题，假设我们希望估计量与真值 p 相差不到 0.01 的概率至 
少超过95%,那么至少需要调查多少人？现在我们唯一可以使用的就是不等式 


P (| M „- p | ^0.01)^ 


4 n (0.01) 2 


为满足要求，只需求充分大的 n ， 使得 


4 n (0.01) 2 


^ 1 - 0.95 = 0.05, 


由上式可得 n ^ 50 000. 取这样的 n ， 就能满足我们的要求,但是基于切比雪夫不 
等式得到的结论仍然很保守.更好的结论将在 5.4 节中讨论. □ 


5.3 依概率收敛 

弱大数定律可以表述为 “ M n 收敛于 . 但是，既然 M U M 2 , ■■- 是随机变量 
序列，而不是数列，所以这里的“收敛”的含义不同于数列的收敛，应该给予更明确 
的含义.下面先给出数列的收敛的定义，以便于进行比较. 


数列的收敛 

设 a u a 2 , ■■- 是一实数数列， a 为一实数，如果对任意的 e > 0,存在正整数 
n 0 , 使得对所有的 n ^ n 0 , 都有 

| a n — a | ^ e , 

则称数列收敛于 a ， 记为 lim a n = a . 


所以，如果= a , 则对任意给定的 e > 0,当 n 充分大时，必须在 a 
的 e 邻域内 . n —°° 
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依概率收敛 

设11,^,••-是随机变量序列（不必相互独立)， a 为一实数，如果对任意的 
e > 0, 都有 

lim P (| F „ - a | ^ e ) = 0, 

n—*oo 

则称 K 依概率收敛于 a . 


根据这个定义，弱大数定律就是说样本均值依概率收敛于均值更一般地, 
利用切比雪夫不等式可以 证明： 如果所有的 K 具有相同的期望，而方差 var ( F „) 
趋于0,则 K 依概率收敛于 

如果随机变量序列 Yi ， y 2 ，…有分布列或者概率密度，且依概率收敛于 a . 则 
根据依概率收敛的定义,对充分大的 n ， 的概率密度函数或分布列的大部分“质 
量”集中在 a 的 e 邻域 [a - + e ] 内.所以依概率收敛的定义也可以这样 描述: 

对任意的 e > 0和> 0,存在 no , 使得对所有的 n 彡 n Q ， 都有 

P (| y „ - a | 彡 e ) < 5. 

下面称 e 为精度，5为置信水平.依概率收敛的定义有如下的 形式： 给定精度和置 
信水平下，在 n 充分大时，等于 a . 

例 5.6 设&， X 2 , … 独立同分布，服从[0, 1] 上的均匀分布，定义 
y „ = min { Xi , ••- , X n }. 

则当 n 充分大时，值序列非增，所以 K 从直觉上看可能收敛于 0. 实际上,对任 
意的 e > 0,利用的独立性，可以得到 

P (| Y „ - 0| ^ e ) = P ( X ! , X n ^ e )= > e ). -. P ( X n > e ) = (1 - e ) n . 

于是， 


lim P (\ Y n - 0| ^ e ) = lim (1 - e) n = 0. 

n—*oo n—*-oo 

上式对任意的 e > 0 都是成立的，所以 y „ 依概率收敛于 0. □ 

例 5.7 设随机变量 F 服从参数 A = 1的指数分布.对任意的正整数 n ， 定义 

= Y / n . (注意该随机变量序列不是独立的 .） 现在研究 K 是否依概率收敛于 0. 
实际上,对任意的 e > 0,可以得到 

P (\ y n - 0 \> e )= P ( F „ ^ e )= P(y ^ ne ) = e ~ n \ 


于是， 


lim P (| y „ - 0| > e ) = lim e— ne = 0. 

n—^oo n—*oo 

上式对任意的 e >0 都是成立的，所以％依概率收敛于 0. □ 
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人们很容易认为，如果依概率收敛于实数 a ， 则 E [ y „] 也应该收敛于 a . 下 
面的例子说明这个结论是不对的，从而说明依概率收敛的定义有局限性. 

例 5.8 考虑离散随机变量序列 F „， 其分布列为 


I 1 _ 若 y = 0， 

若 2 / = n 2 , 
o ! 其他. 

见图 5.2. 则对任意的 e > 0,有 

lim P (| F „| ^ e )= lim - = 0. 

n-+oo n—>oo 71 

所以依概率收敛于 o . 另一方面，当 


l-1/n 

pmf of 

l/7i| 

0 n 2 

图 5.2 例 5.8 中随机变量的分布列 
00 时， E [ y ^] = n 2 /n = n — > oo . □ 


n 


5.4 中心极限定理 

根据弱大数定律,样本均值的分布随着 n 的增大，越来越集中在真值 M 的 
邻 域内. 特别地,在我们的论证中， 假定足 的方差为有限的时候，可以证明 M „ 的 
方差趋于 0. 另一方面，前 n 项和 


S n = Xi^----\~X n = nM n 

的方差趋于 00 ,所以&的分布不可能收敛.换一个角度，我们考虑&与其均值 
n / x 的偏差 S n - n ^ 然后乘以正比于1/^的刻度系数.乘以刻度系数的目的就是 
使新的随机变量具有固定的方差.中心极限定理指出这个新的随机变量的分布趋 
于标准正态分布. 

具体地说，设 Xi ，…，是独立同分布的随机变量序列，均值为 / i , 方差为 a 2 . 

定义 

7 — S n — 汀 M _ Xi + …+ X n — njJL 
71 y/na y/na ' 

经过简单计算可以得到 

E [ Z „] = 寧 1 十…尸"卜 =0, 


、_ var (Xi + * * • +X n ) var(Xi) + …+ var(X n ) no 1 
[Zn)= ^ = - ^ - = ^ = L 
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中心极限定理 

设 X U X 2 .._ 是独立同分布的随机变量序列，序列的每一项的均值为 A 方 
差为 o " 2 .记 

„ Xi H - h - n/i 

Zn = -- • 

则&的分布函数的极限分布为标准正态分布函数 

即 

lim P(Z n ^x)= $(x), 对任 意的; r 成立. 

n— kx) 


中心极限定理是一个非常具有一般性的定理.对于定理的条件，除了序列为独 
立性同分布的序列之外，还假设各项的均值和方差的有限性.此外，对 Xi 的分布 
再也没有其他的要求 . 的分布可以是离散的，连续的，或是混合的.本章末尾的 
习题对此定理提供了证明概要. 

这个定理不仅在理论上，而且在实践中也非常重要.从理论上看，该定理表明 
大样本的独立随机变量序列和大致是正态的.所以当人们遇到的随机量是由许多 
影响小但是独立的随机因素的总和的情况，此时根据中心极限定理就可以判定这个 
随机量的分布是正 态的. 例如在许多自然或工程系统中的白噪声就是这种情况. 

从应用角度看，中心极限定理可以不必考虑随机变量具体服从什么分布，避免 
了分布列和概率密度函数的繁琐计算.而且，在具体计算的时候，人们只需均值和 
方差的信息以及简单查阅标准正态分布表即可. 

5.4.1 基于中心极限定理的近似 

中心极限定理允许人们可 以将& 的分布看成正态分布，从而可以计算与 
相关的随机变量的概率 问题. 因为正态分布在线性变换下仍然是正态分布，所以可 
以将& 视为均值为 n / x , 方差为 ncr 2 的正态随机变量. 

基于中心极限定理的正态近似 

令& = X 1 + … _ + X „ ，其中&，…是独立同分布，均值为叫方差为 V 
的随机变量序列.当 n 充分大时，概率 P ( S n < c ) 可以通过将&视为正态随机 
变量来近似计算.步骤 如下： 

(1) 计算& 的均值 n / i 和方差 na 2 ; 

(2) 计算归一化后的值 ; ( c — n/z)/(^a); 

(3) 计算近似值 
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Pd < c ) « $( 2 )， 

其中可从标准正态分布函数表查得. 

例 5.9 飞机上运载100件包裹，每件包裹的重量是独立的随机变量，且在5镑到 
50磅之间的均勻分布.那么这100件包裹的总重量超过3 000磅的概率是多少？直 
接计算总重量的分布，从而计算该概率是非常不容易的.但是使用中心极限定理， 
可以很容易计算出来. 

现在计算 P(Sioo > 3 000)，其中 S 1 Q o 是这100件包裹的总重量.每件包裹的 
平均重量和方差是 

,= ^ = 27.5, ^ = ^1! = 168.75. 

然后计算标准正态值 

3000 - 100 x 25.5 250 , no 

Z — v / 100 x 168.75 129.9 _ '' 

使用标准正态近似，可以得到 

PO ^ ioo 彡3 000) « $(1.92) = 0.972 6. 

所以 

P (5 100 > 3 000) = 1 - P (5 ioo ^ 3 000) « 1 - 0.972 6 = 0.027 4. □ 

例 5.10 机器对零件进行加工，每次加工一个零件.对于不同的零件，其加工时间 
是相互独立并具有相同分布的随机变量，其公共分布为时间区间[1， 5] 上的均匀分 
布.设在320个单位时间之内所加工的零部件总数为 iV 32 o , 问 7 V 32 o 至少为100的 
概率是多少？ 

我们不能将 iV 320 表示独立随机变量的和，但是我们可以换一种观点来处理问 
题. 记 Xi 为第 i 个零件的加工时间，而氏 00 = & + •_• + X 100 是前100个零部件 
的加工总 时间. 事件{^ 320 > 100} 和事件{5 100 < 320} 是同一个事件，而且后者 
事件中的是独立同分布的随机变量之和，它的分布可用正态分布来近似.注 
意到 " = E [ Xj ] = 3, cr 2 = var ( X ,) = ^ = 4/3. 计算 

320 — ti/x 320 — 300 
Z = ^ V ^ = VWOx 4/3 = 1 ' 73j 

则概率可以近似为 

P { S 100 ^ 320) « $(1.73) = 0.958 2. □ 
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若足 的方差未知，此时我们只能得到概率的上界.使用正态近似的方法可以 
得到人们感兴趣的事件的概率上界. 

例 5.11 (选举问题）现在重新考虑例 5.5 的选举问题.设对 n 个选民进行调查， 
记录下他们赞成某候选人的比例 M „, 

M ^ + …仏 

n 

其中足 是被调查的第 i 个选民的态度 ，足 =1表示选民 i 支持某候选人 ，足 = 0 
表示选民 i 反对某候选人.假设 P 是这个候选人在全体选民中的支持率，则是 
服从参数为 P 的伯努利随机变量.故 M „ 的均值为 P ， 方差为 p ( l - p )/ n . 利用中 
心极限定理，近似服从正态分布. 

下面计算概率 P (| M n - p | ^ e ), e 是估计精度，即计算调査这 n 个人的支持率 
与全体选民的支持率相差大于 e 的概率.由正态分布的对称性，可得 

P(|M„ -p\^e)K, 2P(M„ — p 彡 e). 

显然 p 的方差为 p ( l - p )/ n , 依赖于未知参数 P ， 所以也是未知的.注意，偏离 
均值的概率随着方差的增大而增大，所以为了得到概率 P(M n -p>e) 的上界，人 
们可以假设 M„ - p 有最大的方差，即当 p = 1/2时，方差为 l/(4n). 为此，先计算 
— e 
Z= W(4n )， 


所以 


P ( M n - p ^ e) < 1 - $( 之 )=1 - $(2ev^). 

例如，当 n = 100, e = 0.1 时，假设方差取最大值，且 M „ 是近似正态的，此时 
P (| M n 一 P | 彡 0.1) » 2 P ( M „ - p ^ O . l ) 

<2- 2$(2 • 0.1 • v /100) = 2- 2$(2) = 0.046. 

由此得到 P (| M „- p | ^ 0.1) 的上界为0.046,这比在例 5.5 中使用切比雪夫不等式 
得到的上界 0.25, 要小的多，所以更准确. 

现在考虑另一个问题.如果希望估计 M „ 与真值 p 的差距为 0.01 之内的概率 
至少是0.95,则样本容量 n 应该多大？现在我们假设最坏的情况发生，此时的 
方差达到最大，这个假设引向条件 

2 - 2$(2 - 0.01 - y / n ) <0.05， 


即 


$(2- 0.01 • y / n ) ^ 0.975. 
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根据正态分布表，可査得 $(1.96) = 0.975,所以上式等价于 
2 .0.01 - y/n ^ 1.96， 

即 

-W = 9 604 - 

这个结果是比较理想的，若使用切比雪夫不等式,需要50 000个样本才能保证上述 
结论. □ 

当 n — oo 时，正态近似就会越精确，但是在实践中，样本容量 n 是固定的、有 
限的.所以须知道 n 多大时，正态近似的结果是可信的.可惜的是，没有简单和普 
遍的准则来判断.这要依 赖于石 的分布是否与正态分布接近,特别地，还依赖于 
Xi 的分布是否对称.比如说，假设 X ;是均匀分布 ，则氏 就已经与正态分布接近 
了.但是 如果足 是指数分布，那么 rz 必须要充分大，&的分布与正态分布才接近. 
进一步，使用正态近似计算 P ( S n < c ) 的时候，其近似的程度与 c 的值有关.一般 
来说，如果 C 在&均值的附近，其精度会更髙一些. 

5.4.2 二项分布的棣莫弗-拉普拉斯近似 


服从参数为 n 和 p 的二项分布的随机变量&可以看成 n 个服从参数为 p 的 
伯努利分布的独立随机变量 X :，…，的和： 

•S'n = -^1 + ' • • + X n . 


显然 


fJ- = E[Xj] = p, a = \/var{Xi) = \/p{l -p). 


现在使用中心极限定理去近似事件 { k ^ S n ^ 1} 的概率,其中 fc 和 Z 是给定 
的整数.实际上，运用事件的等价性 


k&S n ( 


S n 

y/np(l - p) 、 y/np(l 




^/np(l-p) 

将事件表达成标准化随机变量的形式.利用中心极限定理可知 f-~ n P 

y/np(l-p) 

标准正态分布，所以 


近似服从 


p(k < 5„ < Z) = P 


^ Sn z np ^ 


<y /np(l-p) ^/np(l-p) y/np(l-p) 


Jnp(l-p) 


( k — np \ 
\^/np(l-p)J 
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上述近似方法等价 于将& 看成均值为 np ， 方差为 np ( l - p ) 的正态分布.图 
5.3 表明，如果 fc 和 Z 替换成 fc - •和 Z + ^则概率的近似结果更加准确，下面给 
出相关的近似公式. 乙 " 


二项分布的棣 莫弗- 拉普拉斯近似 

设&是服从参数为 n 和 p 的二项分布， n 充分大， fc 和 Z 是非负整数，则 


P(k < S n O 屯 


(l + l-np'' 
\ y / np ( l - p ) 



k l k l 

( a ) ( b ) 

图 5.3 正态近似将二项分布随机变量 S „ 看成均值为 np , 方差为 np{l-p) 的正态分布.图 
中显示二项分布的分布列和相应的正态密度函数 .（ a ) 概率值 P(fc < 可以由 

正态分布密度函数从 fc 到/进行积分计算，即图形中阴影部分的面积，使用这种方法， 
当 fc = !时，概率 P(fc 彡彡 《) 就会近似为 0. ( b ) 弥补这个缺陷的方法就是用区 
间 P — i « + I ]内正态分布的概率来 近似. 使用这种想法， P(fc ^ S n ^ l ) 可以用正 
态密度函数在区间 [ fc - §,«+§] 内的面积来近似 

当 p 靠近1/2时，不的分布列是对称的，当 n 接近40或50时，使用上述近 
似方法就能得到很好的结果.当 p 靠近1或0时，这个近似结果就不好，这时需要 
更大的 n, 才能得到相同的精度. 

例 5 .1 2 设&是服从参数为 n = 36和 p = 0.5 的二项分布，则 

< 21) = [ ( 3 :)0_5 36 = 0.878 5 

是精确的概率. k —° 

使用中心极限定理,若端点不经过修正，上述概率可以近似为 

p(5n _ 一 = $ (¥) =瞧 3 . 

若端点经过修正，可以得到 

p(5n < 21) 一 (^3y) =$ (^^)= $(L17) = 0 - 879 - 
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上述计算说明，端点经过修正以后,近似的概率与精确概率非常接近. 

使用端点修正技术，同样可以近似&在单点的概率，比如， 

P ( S n = 19) « $ ( 19 . 5 3 _18 ) - $ ( 队〜- - 1 』)= 0.691 5 - 0.567 5 = 0.124, 
这也与真值 

= 19) = (=)0.5 36 = 0.125 1 

非常接近. 口 

5.5 强大数定律 


强大数定律与弱大数定律一样，都是指样本均值收敛于真值 / X . 但是，它们强 
调的是不同的收敛类别. 

下面是强大数定律的一般陈述.在本章末尾的习题中 ，在足 的四阶矩有限的 
附加条件之下给出了证明. 


强大数定律 

设 - 是均值为 M 的独立同分布随机变量序列，则样本均值 
M n = ( X 1 + X 2 + ■■■+ X n )/n 以概率 1 收敛于 / X ，即 



X 1 + X 2 + ---+ X n 



为解释强大数定律，还是采用样本空间的概率模型来解释.由于试验是由无穷 
长的一串独立重复的小试验序列组成，每次试验的结果,就是随机变量序列 
的一个数据的无穷序列:^ r 2 f . 所以，人们可以把样本空间定义为无穷序列 
uj = ( Xi ,x 2 ,---) 的 集合： 任何一个无穷的数列都可能是试验的一个结果.现在考虑 
样本空间中的一个集合 A :{ lu:w = ( Xl , x 2 , ••■)}, ^4中的样本满足如下 条件： 在极 
限意义下的样本均值为 / i , 即 


(xi,X 2 , 


X2 + • . . + X n 


= M* 


强大数定律是指样本空间中几乎所有可能的样本点都集中在这个特殊的子集中.换 


句话说，所有不在 A 中的可能结果组成的子集的概率为 0. 

强大数定律与弱大数定律的区别是细微的，需要仔细说明.弱大数定律是指 
M n 显著性偏离 / i 的事件的概率 P (| M n - / Lt | 彡 e )， 在 n — oo 时,趋于 0. 但是对任 
意有限的 n , 这个概率可以是正的.所以可以想象的是，在 M „ 这个无穷的序列中， 
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常常有 M „ 显著偏离 弱大数定律不能提供到底有多少会显著性偏离 M ， 但是强 
大数定律却可以.根据强大数定律，以概率1，收敛于 / x . 这意味着，对任意的 
e > 0,偏离 | M „ - //|超过 e 的，只能发生有限次. 

例 5.13 (概率与频率）在例 5.4 中，考虑某试验中事件 A 发生的概率.在多次进 
行重复试验中，记为 n 次试验中事件 A 发生的频率.强大数定律保证以 
概率1收敛于 P 0). 相比之下，弱大数定律则保证依概率收敛于 P ㈤ （见例 
5.4). 

我们经常将事件 A 的概率直观地解释为独立重复无穷试验序列中事件4出 
现的频率.强大数定律支持了这种直观的解释.并且指出在独立重复的试验序列 
中，可以肯定地说 （ 即事件发生的概率为 1): 事件 Z 长时间出现的频率就是概率 
P ⑷. □ 

以概率1收敛 

强大数定律中的收敛与弱大数定律中的收敛是两个不同的概念.现在给出以 
概率1收敛的定义,并讨论这个新概念. 


以概率1收敛 

设 K ，％， •…是某种概率模型下的随机变量序列（但不必独立)， c 是某个实 
数，如果 

P( lim Y n =c) = 1, 

n—^oo 

则称以概率 1 (或几乎处处）收敛于 C . 


类似于前面的讨论，我们应该正确理解以概率1这种收敛类型,这种收敛也是 
在由无穷数列组成的样本空间中建 立的： 若某随机变量序列以概率1收敛于常数 
C ， 则在样本空间中，全部的概率集中在满足极限等于 C 的无穷数列的子集上.但 
这并不意味其他的无穷数列是不可能的，只是它们是非常不可能的，即它们的概率 
为 0. 

例 5.14 设 X 1; X 2 , …是独立随机变量序列，足的公共分布是区间[0, 1] 中的均 
勻分布.令匕=, X n }. 下面证明以概率1收敛于 0. 

注意，是非增的，即对所有的 n ， F „ +1 < 既然序列 y „ 有下界0,所以一 
定有极限，将这个极限记为 y . 固定 e > 0,如果 y 则对所有的 i 都有不彡 e ， 

故对所有的 n ， 有 


P(F > e)< P(n > e， … U e) = (1 — 0". 


进一步有 


P(y ^ e)< lim (1 - e) n = 0. 

n-^-oo 
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这就证明了对任意的正数 e , P(y > e ) = 0.故 P(F > 0) = 0,从而 P(y = 0) = 
i . 又因为 y 是匕的极限，所以以概率1收敛于 o . □ 

以概率1收敛蕴含依概率收敛（见本章末尾的习题)，但反之不成立.下一个例 
子说明依概率收敛和以概率1收敛的区别. 

例 5.15 考虑一个离散时间到达的过程®.我们假定到达的时刻属于正整数集 

合{ I ， 2 ,… }_ 现将这个集合分割成若干互不相交的集合（区间 ） 4 = {2 k ,2 k + 
- 1 }， fc = 0,1，….注意，4的长度是 2' 随着 fc 的增大而增大.假定在 
每个区间4,只有唯一的一个到达时刻，且在区间内每个时刻到达是等可能的，在 
各个区间到达时刻是相互独立的.若记第 fc 个区间4内的到达时刻为％，则 
是相互独立的随机变量序列 ， fc = 1，…，.现在定义随机变量序列匕：如果在时刻 
n 到达了，则定义 = 1，否则定义 = 0 . 

如果 n e 4,则 P (^ # 0) = 2_ fc . 注意到，对任意的 n , 存在唯一的 fc ， 使得 
nel k . 而且随着 n 的增大， fc 也随之增大,所以 

lim P ( y „ — 0) = lim 2 _ fc = 0. 

n~-*oo k—^oo 

故依概率收敛于 0. 但是在每个区间 4 都有到达时刻，所以到达的次数是无穷 
多次的,所以存在无穷多个 n ， 使得= 1. 这样，事件= 0} 的概率为0, 
即 K 不以概率1收敛. n_>00 

直觉上看，对任意给定时刻 n ， 与0的偏差显著大于0的概率很小，而且随 
着 n 的增大，概率在减少.这就是说是依概率收敛的序列.另一方面，只要时间 
足够大, y „ = 1肯定会发生，因此％就不以概率1收敛. □ 


5.6 小结和讨论 

本章中，我们讨论了概率论中许多重要的理论，并主要从概念和实际应用两个 
角度来论述.从概念上看，概率可以看作大量独立试验的相对频率,并且本章给出 
了其坚实的理论依据.从实践角度上看，对计算关于独立随机变量和的事件的概率 
给出了合理的近似计算方法，而对这些事件概率的精确计算却往往很困难.在统计 
推断中，我们将看到这些定律的大量应用. 

本章论述了如下三个涉及极限理论的定律. 

( a ) 弱大数 定律： 表明在样本容量 n 充分大时，样本均值与真均值非常接近.切 
比雪夫不等式是概率论中一个非常有用的不等式. 

①到达时刻的直观含义是非常清楚的，例如，时刻 n 到达一位顾客，或时刻 n 到达一个基本粒子等说 
法.——译者注 
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( b ) 中心极限 定理： 概率论中最重要的理论之一.它是指大量独立随机变量之 
和的分布可以近似为正态分布.中心极限定理有许多应用，它是统计分析中的一个 
主要工具,而且确信在大量实例中使用正态模型的假设的合理性. 

( c ) 强大数定律：将概率和频率更加紧密地联系起来,在理论研究中也是非常 
重要的工具. 

在研究极限理论中，本章介绍了很多收敛的概念 （ 依概率收敛，以概率1收 
敛)，同时也提供了概率模型中关于收敛的精确语言.极限理论和收敛概念是研究 
概率模型和随机过程中非常重要的课题. 
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5.1 节有用的不等式 


1. 一位统计学家欲估计某类人群的平均身髙 h (以米为单位)，然后在该类人群中随机抽取 
n 个人，获得样本不 ，…， 他使用样本均值 M n = (X 1 + --- + X n )/n 作为？ i 的估 
计，大致猜测的标准差为1米. 

( a ) 样本容量多少时，使得的标准差最多不超过1厘米？ 

( b ) 样本容量多少时，使用切比雪夫不等式可以保证估计值与/^的差距,至少以 0.99 的 
概率在5厘米之内？ 

( c ) 该统计学家认识到该类人群里所有的人的身髙都在 1.4 米到 2.0 米之间，然后他基 
于例 5.3 使用的上界方法，来修正对标准差的猜测（即原来的1米).那么 （ a ) 和 （ b ) 
的结论如何修正？ 

2. * 切尔诺夫界. 切尔诺夫界是概率论的一个有用的工具，它是利用随机变量的矩母函数，给 

出某些尾事件的概率上界. 

( a ) 证明不等式 

P(X ^ a) ^ e _ sa Af ( s ) 


对所有的 a 和 s 彡0成立，其中 M(s)= E[e sX ] 是随机变量X的矩母函数.假定 
矩母函数在 s = 0的一个小区域内取有限值. 

( b ) 证明不等式 

P(X ^ a) < e~ 3a M(s) 

对所有的 a 和 s < 0 成立. 

( c ) 证明不等式 

P(X ^ a) ^ e- 0 ⑷ 

对所有的 a 成立，其中 

<j){a) = majc(so — lnM ( s )). 

(d) 证明： 如果 a > E[X]， 则 4>{a) > 0. 
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( e ) 利用 （ c ) 的结论，试给出 P(X ^ a ) 的上界，其中 X 服从标准的正态分布，并且假 
定 a > 0. 

( f ) 设•■-是独立随机变量序列，与 X 有相同的分布.证明对任意的 a > E [ X ], 

均有 n 

所以样本均值超过均值一定量的概率随着 n 的增大指数递减. 

解 （ a ) 对任意的实数 a 和 s > 0,定义随机变量 


若 



[ e sa , 若 X > a . 

显然 

Y a < e sX 

总成立，所以 

E [ V a ] ^ E [ e sX ] = M ( s ). 

另外 

E [ y a ] = e sa P ( y a = e so ) = e sa P(X ^ a ), 

故 

P(X ^ a ) ^ e ~ 3 a M { s ). 


( b ) 证明过程类似于 （ a ), 定义 K 如下: 


Y a = 


e sa , 若 X < a , 
0, 若 X > a . 


因为 s ^ 0,关系式 
总成立，所以 
另外 
故 


Y a < e sX 

E [ Y a ] ^ E [ e sX ] = M ( s ). 

E [ y a ] = e so P ( y o = e sa ) = e sa P{X ^ a ), 


P(X ^ a) ^ e_ sa M(s). 

( c ) 因为⑷中不等式对所有的 s 彡0成立,所以 

P(X ^ a) < min (e_ sa M(s)) = mine- (s °- lnMW) 

= e _?|?( Sa _ lnM ( S )) =e -_ 



( d ) 当5 = 0 时， 
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sa - In M ( s ) = 0 - In 1 = 0, 

这里应用了 M (0) = 1，而且 

A (⑽— lnM(,))[ =o = a -^- 去 M ( S ) L 。= a - l . E [ X ]>0. 

因为函数 sa - lnM ( s ) 在 s = 0 处的函数值为 0, 且导数是正的，所以当 s 是很小 
的正数时，函数一定是正的.故函数 sa - hiM ( s ) 在 s 彡0的最大值火 a ) 也一定 
是正的. 

( e ) 当 X 是标准正态分布时， M ( s ) = 因此， sa — lnM ( s ) = sa — s 2 /2 . 为给出 
s >0 时函数的最大值，先求函数 sa - S 2 /2 对变量 s 的导数，得 a - s ， 令其为0, 
解得 s = a . 从而 0( a ) = a 2 /2. 所以概率 P(X ^ a ) 的上界为 

P(X ^ a ) ^ e - a2/2 . 


注意，当 a < 0时，函数 sa - In M ( s ) 在 s = 0处达到最大值，所 以必⑷ = 0时给 
出一个无意义的上界 

P(X ^ a ) ^ 1. 

( f ) 定义 F = JSG +…+ 运用结论 （ c )， 可得 




P(F ^ na ) < e - 和—)， 


其中 
以及 

因 lnMy ( s ) = n ] nM ( s ), 所以 


4>Y{na) = max(nsa — lnMy ( s )), 
My ( s ) = ( M ( s )) n . 


( j > Y ( na ) = n - max(sa - lnM ( s )) = n ^( a ), 


注意，当 a > E [ X ], 结论 （ d ) 保证了別 a ) > 0,所以感兴趣的概率随着 n 的增大而 
按指数递减. 

3.* 詹生不等式.设实值函数 /( a :) 二次可微.如果二阶导数^/ (3；) 在 * 的定义域内是非 
负的，则称函数 f ( x ) 是凸函数. 

( a ) 证明函数/(岣= e a ' /(岣= - Ina : 和 /&) = /都是凸函数 • 

( b ) 证明 ：如果 /是凸的二阶可微函数，则/的一阶 Taylor 展开低估了函数/，即 

/(a) + (x-a)^(a)</(x) 


对任意的 a 和 a : 成立. 
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( c ) 证明 ：如果 /满足 （ b ) 中所述的条件， X 是随机变量，则 

mx]) < e [/( x )]. 


解 （ a ) 

慕， = a V-> 。， ^(-lnx) = ^>0, ^ = 12x^0. 

0>)因为/的二阶导数是非负的，所以它的一阶导数一定是非降.应用积分原理可得 
f(x) = f(a) + £ ^(t)dt>f(a) + £ ^(a)dt = f(a) + (x - a )^( a ). 
( c ) 由于 （ b ) 中的不等式对所有可能取值的 i 都成立，所以 
/( a ) + (X _ o)^(oi) ^ /W- 
取 a = E[X], 并在上式两边取期望，可得 

/(E[X]) + (E[X] - E[X])^(E[X]) ^ E[f(X)\, 


即 

5.2 节弱大数定律 


/(E[X]K E[/(X)]. 


4. 为估计吸烟人群占总人口的真实比例/,艾温随机地从其中抽取 n 人.使用这 n 个人中 
的吸烟人数&除以 n ， 得到 M „， 作为该比例的估计，即 JW „ = S n /n. 对于固定的正数 
e 和 <5,艾温为选取最小的样本容量 n ， 使得下式 成立： 


P(\M n 

指出 n 随着下面参数变化而变化的规律. 

( a ) e 缩小为原来的一半. 

(b) 概率值 <5 缩小为原来的一半. 

5.3 节依概率收敛 

5. 设&，…，独立同分布， 服从卜 1， 1] 上的均勻分布.证明下列情形下的随机变量序 
列札的，…依概率收敛，并求出它们的极限. 

⑷ y n = X n /n; 

(b) F„ = (X n )"; 

( c ) y n = x 1 . x 2 ... x n ； 

(d) Y n = max{Xi, - - - ,X n }. 
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6.* 考虑两个随机变量序列不， x 2 , …和 Yi , y 2 , ….假定和都分别依概率收敛 ， c 
为已知常数， 证明： cX n , X n + y „, max{0,X n }, |X„|, 都依概率收敛于各自的极 

限. 

解假设 Z 和 y 分别是和 y„ 的极限.对任意的 e > 0 和常数 c. 如果 c = 0, 则 cX n 
对所有的 n , 都等于0,自然就收敛.如果 c / 0,则 P (| cX „ - cx \^ e )= P (| X n — a :| 彡 
e /| c |) ^ 0, 所以就证明了 cX „ 依概率收敛于 cx . 

对任意的 E > 0, 现在我们证明概率 P(|X n +Y n -x-y\^e)^0. 为给该概率一 
个上限，注 意到： 当+ F n - x - y | 彡 e 时，必有 | X „ - x\ ^ e/2, 或者 ~y\>e/2 
(或者两者都成立).所以，从事件的角度看， 

{\X n + Y n -x-y\^e}c {\X n - 叫 > e/2} U {\Y n -y\^ e/2}. 


故 

P (| X „ + y n - a :- y |^ e )< P (| X „ - x \^ e /2) + P (| y „ - y \ ^ e /2), 

以及由和分别依概率收敛于 z 和 y 的假设条件可得 
lim P (\ X n + Y n - x - y \^ e )^ lim P (| X n - x | ^ e /2) + lim P (| V „ - y | 彡 e /2) = 0. 

n—KX n—*oo n—*oo 

类似地，事件 {| max {0, X n }- max {0, x }\ > e } 包含在事件 {\ X n — 叫彡 e } 之中. 又因 
为 P (| X „ - x | ^ e ) = 0, 所以 


lim P (| max {0, X n } - max {0, x }| ^ e ) = 0. 

这就证明了 max {0, X n } 依概率收敛于 max {0 >a； }. 

我们有 | X n | = max {0, X n } + max {0, ~ X n }. 前面已经证明了 max {0， X „} 和 
max {0, - X n } 都依概率收敛，所以它们的和也依概率收敛于 max {0, a ;} + max {0, - x }. 
最后， 

P (\ X n Y n - xy \ 彡 e ) = P (|( X „ - x )( Y n - y ) + x Y n + yX n - 2 xy \ ^ e ) 

^ P(|(^n - x ){ Y n — y )| > e /2) + P (\ xY n + yX n - 2 xy \ ^ e /2). 

因为和都依概率收敛于 zy ， 所以上式中后一个概率值趋于 0. 所以我们只需 
证明 


V {\{ X n - x ){ Y n - y )\^ e /2)^ Q . 

为给该概率一个上限，注意 到：当 \( X n - x ){ Y n - y )\ ^ e/2 H, 必有 \ X n - x \ ^ y/I/2, 
或者％ - y \^ ^ flj 2 (或者两者都成立).类似于 X n + y n 依概率收敛的证明，同样可 
以证明 P (|( X „ - x ){ Y n - y )\^ e /2)^0. 

7/称随机变量序列为均方收敛于常数 c ， 如果 

^liin E[(X n -c) 2 ] = 0. 

( a ) 均方收敛的随机变量序列必定依概率收敛. 
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( b ) 给出一个例子，说明依概率收敛的随机变量序列不是均方收敛的. 

解 （ a ) 假设均方收敛于常数 c ， 利用马尔可夫不等式，有 

P(|X„ ~c\^e)= P(|X„ - c| W E[(Xn e ~ C)2] ■ 

令 n -► 00 ,可得 

Jim^PdXn - c | ^ e ) = 0, 

即依概率收敛. 

( b ) 在例 5.8 中，依概率收敛于0,但是 E [ y n 2 ] = n 3 发散到无穷大. 

5.4 节中心极限定理 

8. 假设你将在赌场玩轮盘赌，通常你需要检验轮盘的公正性.其办法 如下： 轮盘上标有 
1〜36的数字，将轮盘转动100次，然后计算轮盘停止在奇数点处的总次数.如果次数大 
于55,则可判断轮盘不是公正的.假设轮盘是公正的，试估计做出错误判断的概率. 

9. 假设计算机系统每天至少出现一次死机的概率为5%，而且在不同天里，出现死机的事件 
是相互独立的.求在50天之内计算机至少有45天没有死机的概率. 

( a ) 试用二项分布的正态近似方法来计算. 

( b ) 试用二项分布的泊松近似方法来 计算. 

10. 一工厂在第 n 天生产小配件件，且是相互独立的随机变量序列，均值为5,方差 
为9_ 

( a ) 试给出在100天内生产至少440件小配件的概率的近似值. 

( b ) 给出最大的 n , 使得 

P(Xi + • • • + X n ^ 200 + 5 n ) < 0.05. 

( c ) 用 JV 表示小配件的总产量首次超过1 000的天数，计算 JV > 220的概率. 

11. 设 Xi ， X 2 , y 2 ,... 是独立的随机变量序列，服从[0, 1] 上的均勻分布.定义 

w _ (Xi H - h X16 ) - (Fi -I - h yi 6) 

吖— 16 ■ 

试给出概率 P(y - E [ W ]| < 0.001) 的近似值. 

12. * 中心极限定理的证明•设 XLX 2, • •-独立同分布，均值为0, 方差为 < r 2 . 其矩母函数为 

M x (s). 假设对某个正实数 d , 当 | s | < d 时， M x {s) 是有界的.定义 

rr A：1 + • • • + 

= - 7= - • 

(Jyjn 

( a ) 证明 ： 的矩母函数为 

此"⑷=卜($)厂 

( b ) 设 Mx ⑷在 s = 0处附件存在二阶 Taylor 展开，即 

Mx{s) = a + bs + cs 2 + o(s 2 ), 

其中 o ( s 2 ) 满足 lim o ( s 2 )/ S 2 = 0. 试写出 a,b,c 的表达式. 
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( c ) 用 （ a ) 和 （ b ) 的结论证明的矩母函数 Mz „( s ) 收敛于标准正态分布的矩母函 
数，即对所有的 S ， ^ 

lim = e s2/2 . 

注中心极限定理的证明就是利用结论 （ c ) 以及如下结论(证明在此省 略)： 如果 M Zn (s) 
收敛于一个连续的随机变量 z 的矩母函数 Mz ( S ), 那么的分布函数必收敛于 
Z 的分布函数 F Z . 这个结论的证明超出本书的范围，在此不再论述.利用结论 （ c ) 和上 
述结论，可以得到的分布函数必收敛于标准正态分布的分布函数，即中心极限 
定理成立. 

解 （ a ) 利用的独立性可得 

Mz n ( s ) = E[e sZ "] = E 卜 xp 

= JjE|"e sXi/(<7v/?r) l 


( b ) 利用矩母函数的矩性质，有 

a = M x (0) = 

_ d 2 
2 

( c ) 综合结论 （ a ) 和 （ b ), 可得 


⑷ 1。=财卜 0 , 


再由 a = 1,6 = 0, c = ct 2 /2, 可知 

— («))"• 

令 n — oo , 翻用 n lim(l + ^r = e c 可得 

Jim M z „ ( s ) = e s2/2 . 


5.5 节 5 虽大数定律 

13.* 考虑两个随机变量序列不, X 2 , …和…•假定和分别以概率 1 收敛于 
a 和&，证明以概率 1 收敛于 a + b . 进一步，如果 y„ / 0, 证明 X n / Y n 以概 
率1收敛于 a /6. 

解记事件4 = { X „ 不收敛于 a }, B = { F „ 不收敛于 &}, C = { X n + F n 不收敛于 a + b ) 
则 C 1 C 4 U 
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因为假定不> 和 K 分别以概率1收敛于 a 和6,所以 P ( A ) = P ( B ) = 0.故 


P(C) < P(^l US) ^ P(A) + P(B) = 0, 


从而 P ( C e ) = 1，即以概率 1 收敛于 a + b . 同理 可证： X n / Y n 以概率 1 收敛 
于 a /6. 

14.* 设； x 2 , …是独立同分布的随机变量序列， yi , y 2 , ••-是另一个独立同分布的随机变 
量序列.假 定足和 K 的均值有限，且妁+…+ k 不可能为零值. 

y _ + • ' • + X-g 

n = Fi + • • • + 


是否以概率 i 收敛？如果是，极限是什么？ 


解显然 


(Xx + •••+X n )/n 

n — ( y 1 + ... + y n )/n - 


运用强大数定律可知，分子和分母都分别以概率1收敛于 E [ X ] 和 E [ Y ]. 利用习题13 
的结论可得&以概率 1 收敛于 E [ X ]/ E [ r ], 

15.* 假设 Yi , y 2 , -' 以概率1收敛于常数 c ， 证明该序列依概率收敛于常数 c . 

解定义事件 C = { K 收敛于 c }. 由假设可知 P ( C ) = 1. 给定 e > 0,定义事件 
= {对所有的 n ^ k ,\ Y n - c\<e }. 如果随机变量序列的一组取值序列收敛于 
c , 则必然存在 fc , 使得 n 彡 fc 时， y „ 与 c 的偏差在 e 范围之内.所以， C 中的任何元素 
必属于某个丄，即 ^ 

Cc \ jA k . 


注意，事件 序列也 是单调递增的 ，即土 C A fc +1 . 由事件枭是事件 {IK - c | < e } 的 
子集可知， 


lim P(|y n - c| < e) ^ lim P(yl fe ) = Pd>U ) 彡 P(C) = 1. 

n—^oo k—*oo 

上式的第一个等式利用了概率的连续性（第 1 章的习题 13) .所以 


n lim P(|F n -c| ^e) = 0, 

即证明了 依概率收敛于常数 c . 

16.* 假设 Y U Y 2 , ■■- 为非负的随机变量序列，且 

Eg 屮 。 c . 


证明 K 以概率1收敛于 0. 

注这个结论是用来证明序列以概率1 收敛的常用方法.为计算的期望，人 
们常用公式 

^■ ns=l 」 n=l 
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上式成立的原因是期望和无穷和可以交换顺序.当随机变量序列是非负值，就是著名的 
单调收敛定理.这是概率论中的重要结论，该定理的证明超出本书的范围. 

解无穷和 E ^= l ^ 必须以概率1有界.事实上，如果这无穷和等于无穷大的概率大 
于0,则其期望一 k 也是无穷大.但是如果任何数值序列的无穷和是有界的话，那么 
该序列一定收敛于 o . 所以事件{^: y„M — 0} 的概率为1 ,即以概率1 收敛于 o . 
17.* 考虑伯努利随机变量序列 X „， 记 p „ = P(X n = 1) 为第 n 次试验成功的概率.如果 
E^ =1 Pn < 00,证明成功的总次数以概率1有界.（与第1章习题 48( b ) 的结果进行比 
较). 

解使用单调收敛定理（见上个习题的备注)，可得 

Ln=l 」 n=l n=l 


所以 oo 

^ X n < OO , 
n=l 

以概率 l 成立.所以成功的总次数以概率 l 有界. 

18. 强大数定律的证明.假设 A ， X 2 , …是独立同分布的随机变量序列，且 E[Xf] < 00 ,证 
明强大数定律. 

解注意到 E [ X , 4 ] < 00 ,由此可知 Xi 的期望是有限的.事实上，使用不等式 ㈣ < 1+ x 4 , 
可得 

E [| Xi |] ^ E [ l + X t 4 ] = l + E[Xf] < 00 . 

首先假设 EfXi ] = 0. 下面证明 

喉 ㊉ + :+叫 4 卜 

我们有 

E[ ( Xl + . n4 +Xn ) 4 ] = ^±±±± 

L 」 i 1： =l i 2 = l i 3 =l 14 = 1 

现在考虑上式求和中的 各项. 如果项中某一下标与其他下标不同，则该项为 o . 比如 ， t 
与 i2,i 3 ,U 都不相同，则 E[X n ] = 0,从而 

E^Xi.Xi.Xt,} = ElX^EiXi.Xi.Xu] = 0. 

所以上式求和项中非零项要么是 E [ X ?] (共有 n 项)，要么是 E[XfXf] (i # j). 现在计 
算后者有多少项.获得这种形式有三种 方式： ll = 12 ^ *3 = U , 或者 il = 13 # *2 = *4, 
或者 il = i 4 ^ = *2. 在这三种方式的每一种方式中，第一对指标共有 n 种选择，第 

二对指标共有 n - 1种选择，故每一种方式共有 n(n - 1) 项.综合这三种方式，一共有 
3 n(n - 1) 项.故 

d 「 (A + …+ X „) 4 1 nE [ Xj 4 ] + 3 n ( n - l)E\X!xl] 

[ ^ j _ ^ . 
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最后一步使用了有名的 性质： E ^= in - 2 < oo . 这就证明了 （& + … + X „) 4 / n 4 以概率 
1收敛于 0. (见习题 16). 所以+…+ X n )/ n 以概率1收敛于 0. 即证明了强大数 
定律. 

现在考虑一般的情况： Xi 的期望非零.由上述证明方法可得 （Xi + •. _ + _ 

nE [ X !])/ n 以概率1收敛于0,故（不+…+ X n )/ n 以概率1收敛于 E ^]. 




第 6 章伯努利过程和泊松过程 

随机过程是处理包含时间以及数据序列的概率模型.比如随机过程可用于如 
下数据序列进行 建模： 

( a ) 每天的股票价格数据 序列； 

( b ) 足球比赛得分数据序列； 

( c ) 机器失效时间数据 序列； 

( d ) 交通网络中的每个点的交通负荷数据 序列； 

( e ) 雷达对一架飞机的定位数据序列 • 

序列中的每个数据都视为一个随机变量，所以简单地说，随机过程就是一串（有限 
或者无限）随机变量序列，与概率的基本概念没有本质的区别.设在某个试验的样 
本空间中的每一个试验结果,对应着一个数列, ® 这个数列中的每一个数,都对应着 
一个随机变量. 

但是，随机过程还是跟以前强调随机变量序列有明显的区别，主要表现在如下 
几个方面. 

( a ) 我们更倾向于强调过程中产生的数据序列之间 的相关 关系.比如，股票的 
未来价格与历史价格是什么关系？ 

( b ) 我们对整个过程中长期 均值感 兴趣.比如，有多大比例的时间,机器处于闲 
置？ 

⑷有时，需要刻画某些边界事件的似然或者频率.比如，在给定的时间内，电 
话系统里所有的电路同时处于忙碌状态的概率是多少？计算机网络中缓冲器数据 
泛滥的频率是多少？ 

随机过程的种类非常多，但是本书我们只讨论两类重要的随机过程. 

( i ) 到达 过程： 我们感兴趣的是某种“到达”特性是否发生.比如，接收器接收 
信号的时刻，生产线上的工作完成时刻,商店顾客的购买行为的实施时刻，等等.我 
们重点研究相邻到达时间（即两次到达之间的时间）是相互独立的随机变量的模型. 
在 6.1 节，我们考虑到达时间是离散的情形，相邻时间服从几何分布，即伯努利过 
程.在 6 . 2 节，我们考虑到达时间是连续的情形，相邻时间服从指数分布，即泊松过 
程. 

①这里我们强调的是,在随机过程中产生的随机变量都是通常的随机变量，它们都定义在一个相同的样 
本空间上.相应的概率规律只要求明确无误地确定所有随机变量集合的任何子集的联合分布，而这 
些联合分布之间应该具有某种相容性. 
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( ii ) 马尔可夫 过程： 考虑数据在时间点上演化，而且未来数据的演化与历史数 
据有概率相关结构.比如，股票的未来日价格明显依赖于过去的价格.但是在马尔 
可夫过程中，我们假设一类特殊的 相关： 未来的数据只依赖于当前的数据，而与过 
去的数据无关.对于马尔可夫过程，概率统计学家积累了丰富的研究成果，处理方 
法也已经成熟，这是第7章讨论的主题. 


6.1 伯努利过程 


伯努利过程可视为独立投掷硬币序列，而且每次投掷硬币正面朝上的概率都是 
P， 0 < p < 1. —般而言，伯努利过程是由一串伯努利试验组成_每次试验以概率 p 
产生数据 1( 成功)，以概率 1 - P 产生数据 0 (失败)，而且跟试验序列中的其他试验 
是相互独立的. 

当然，投掷硬币只是对独立二进制输出数据的一个范例说明.比如，伯努利过 
程经常用于对诸如顾客到来,服务中心找到工作等系统进行建模.这里，时间被离 
散化为若干时间段， 在第 k 段时间内，至少有一个顾客到达服务中心，就视为第 fc 
次实验“成功”.因此,我们常常使用“到达”这个词语,而不用“成功”，这是由实 
际背景决定的. 

我们用更加正式的语言描述如下，伯努利过程为一串相互独立的伯努利随机变 
量序列 Xi ，… . ， X „， 且对任意的① 

P(xi = 1) = p (第 i 次实验成功）= p , 

P(Xi = 0) = P (第 i 次实验失败 ） = l - p . 


在到达随机过程中，人们常常感兴趣的是在一定时间内总到达次数，或者首次 
到达的时间.对伯努利过程，前几章里已经得到许多结果，现在总结如下. 


与伯努利过程相关的随机变量及其性质 

• 服从参数为 n 和 p 的二项分布. 这是 n 次相继独立的试验成功的总次数 
S 的分布.它的分布列，期望和方差是 

Ps(k) = ⑵六 1 - PT~ k , fc = 0,1，…， n， 

E [ S ] = np, var(5) = np(l — p). 


①有限个随机变量的独立性，可以推广到一串无限个随机变量序列的独 立性： 如果对任意有限的 n , 随 
机变量 X U ... , X n 是独立的.直观上看，独立性意味着获得任意有限子集的随机变量的信息，都不 
能对其他变量提供任何概率信息，即后者变量的条件分布函数与无条件分布函数是相同的. 



6.1 伯努利过程 257 


• 服从参数为 p 的几何分布. 相互独立重复的伯努利试验首次成功的总次 
数 T 的分布.它的分布列，期望和方差是 

Pr(t) =p(l-p) t ~ 1 ! i = l ，2 …， 

E[r] = ^ var(T) = l^. 


6.1.1 独立性和无记忆性 

伯努利过程中的独立性假设，暗含了很多重要的特征，比如无记忆性(无论过去 
发生了什么，都不能对未来试验的结果提供任何信息).对这个假设进行直观和正确 
的了解非常有用，这能帮助人们很快地解决一些非常难的问题.在本小节里，我们 
将加深这种直觉. 

我们从与伯努利过程中的某些实验结果相关的随机变量入手.比如，随机变量 
Z = (X 1+ X 3 )X e X 7 涉及的是第1,3,6,7次试验结果.现在假定我们研究这类随机 
过程的两个随机变量，而它们所涉及的试验结果没有重叠，则这两个随机变量一定 
是独立的.这推广了第2章里的 结论： 如果两个随机变量 [/和 F 独立，则它们的 
任何函数 g(U), h(V) 也是独立的. 

例 6.1 ( a ) 设?7是第1 〜 5次试验的成功总次数， F 是第6~10次试验的成功总次 
数.则;7和 F 独立.这是因为 U = X 1 + ---+X 5 ,V = X e + ---+ X 10 , 而且集合 
{&，…， X 5 } 与 { X 6 , … ， X 10 } 没有相同的元素. 

( b ) 设 £/( 对应的， F ) 是在奇数次（对应的，偶数次）试验序列中首次成功的时 
刻 . C / 是由奇数次试验的结果序列••-所决定的，而 F 是由偶数次试验的 
结果序列 X 2 , X 4 , …所决 定的. 而这两个试验结果序列没有相同的元素，所以 ，[/ 
和 F 是相互独立的. □ 

现在假设伯努利过程运行了 n 次，得到了观测数据 X U X 2 , …， X n . 未来试验 
序列 X „ +1 , X „ +2 ，…仍然是独立的伯努利试验，形成了新的伯努利过程.进一步, 
这些未来试验与过去的试验都是独 立的. 所以，我们可以得出这样的 结论： 从任意 
一个时刻开始，未来也可以用相同的伯努利过程来建模，而且与过去相互独立 .人 
们称这种伯努利过程性质 为重新开始. 

注意到伯努利过程首次成功时试验的总次数 r 服从几何分布.假设我们已经 
观测过程 n 步，但是没有“成功”的结果出现.那么人们对直到出现“成功”的结 
果进行余下的实验次数 T - n 有什么结论呢？既然未来的过程 （ n 次之后的过程） 
与过去的过程是独立的,而且重新构成一个“重新开始”的伯努利过程，所以，直到 
出现“成功”的结果的未来实验次数仍然是相同的几何分布.即 


P(T -n = t\T>n) = (l- p) t_1 p = P(T = t), f = 1,2, … . 



258 第 6 章伯努利过程和泊松过程 


人们称这种性质为无记忆性质.当然这个性质可以运用条件概率的定义来进行数 
学的推导，但是刚才这种推理过程更加直观. 


与伯努利过程相关的独立性质 

• 对任意给定的时间 n ， 随机变量序列 X „ +1 , X n +2 ,--. (过程的将来）也是 
伯努利过程，而且与 X ：,-- - , X „ (过程的过去）独立. 

• 对任意给定的时间 n , 令: f 是时间 n 之后首次成功的时间，则随机变量 
T - n 服从参数为 p 的几何分布，且与随机变量，…，独立. 


例 6.2 计算机执行的任务分为 两类： 优先任务和非优先任务.计算机将运行时间 
划分为互相连接的时间小区间，每个小区间称为“瞬间” （ slot ), 时间区间就实现了 
离散化.计算机在每一个瞬间只有两个 状态： 忙碌或空闲.这样计算机运行状态形 
成一个随机过程.假定各个瞬间的忙闲是相互独立的.又假定在每个瞬间的开始, 
优先任务以概率 P 到达,而且与其他瞬间是独立的.当优先任务到达的时候，计算 
机执行优先任务，处于忙碌的状态.非优先任务总是处于等待状态，只有在没有优 
先任务的前提下，才会执行.当计算机执行非优先任务的时候,称计算机处于空闲 
的状态.这样计算机在各瞬间的状态形成一个随机过程. 

在这种背景下，人们关心的是非优先任务运行的时间间隔的概率特性.我们称 
顺序相连的瞬间形成的时间区间称为段，段的长度就是这个时间区间内的瞬间数. 
现在我们来推导下列随机变量的分布列，均值和方差. 

( a ) T = 首个空闲瞬间的时间 指标； 

( b ) 5=首个忙碌段的时间长度（即忙碌段中含有的忙碌瞬间的个 数)； 

( c ) /=首个空闲段的时间 长度； 

( d ) Z = 第一个忙碌瞬间之后直到出现首个空闲瞬间的瞬间数（含这个空闲瞬 
间，但不含第一个忙碌瞬间). 


|b|b|b|i|i|b|b|b|b|i|i|i|i|b| 

^ . T 、. 1 忙碌段 > 1 空闲段^ 


Ii|i|1111 i|b|b|b|b| i|i| i|i|b| | 

T -~ z ~ ^时间 

图 6.1 随机变量示意图，例 6.2 中的忙碌时间段和空闲时间段.在上图中， T = 4,B = 
3,/ = 2 ,Z = 3,在下图中， T = 1,/ = 5 ,B = 4 ,Z = 4 
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T 是服从参数为1 - p 的几何分布随机变量，其分布列是 

p T { k ) = p k ^ 1 ( l - p ), fc = l ，2, …， 

均值和方差是 

则=占， var(r) = IT ^- 

现在我们考虑第一个忙碌时间段.起始于第一个忙碌瞬间，称之为瞬间 L (图 
6.1 的上图 ， L = 1，下图 I = 6.) 直到出现下一个空闲瞬间（包括这个瞬间）的瞬间 
数 Z 与 r 具有相同的分布，这是因为伯努利过程从时间 L + 1 “重新开始”.然后 
我们注意到2： = S , 所以 B 与 r 一样,具有相同的分布列. 

如果我们将空闲瞬间和忙碌瞬间的位置对换，把 p 换成1 - P ， 则第一个空闲 
段的长度 J 与第一个忙碌段的长度具有一样的分布列，所以 

Pl { k ) = { l - p ) k - l p , fc = l ，2, …， E [/] = p var ⑺ = 1^. 

最后注意到上述结论对第2, 3, 4 等忙碌（或空闲）段，都是成立的.所以计算 
得出的分布列也可以应用在任何第 i 个忙碌（或空闲）段. □ 

如果我们从时间 n 才开始观测伯努利过程，这等价于我们重新观察一个新的 
伯努利 过程. 进一步，我们可以从任何随机的时间 AT 开始观测伯努利过程，得到的 
结论是一样的，即重新观察一个伯努利 过程. 当然这里的 iV 完全由过程的过去决 
定，不能对未来提供任何信息.事实上，在例 6.2 中，在讨论 Z 的分布列时候，我们 
强调了过程是从 L +1 个瞬间重新开始的，运用了这个性质，就可以得到 Z 与 r 同 
分布的 结论. 现在再举一个例子，考虑一个轮盘赌轮子，出现红色就视为成功.从任 
意一次旋转（比如，第 25 次）开始记录数据，它遵从的概率特征与从连续5次旋转 
出现红色就立即开始记录数据所遵从的概率特征是完全一样的.这两个例子,就是 
过程随时重新开始的例子（尽管我们可以发现有些赌徒另有他们的解释).下面的 
例子说明同样的结论，但是更正式一些. 

例 6 . 3 (随机时间的重新新开始） 设 iV 是第一次遇到连续两次成功的时刻（即， 
N 是满足不= Xi_i = 1的第一个 i ). 现求概率 P ( X w+ i = X N+2 = 0), 即紧接着 
两次实验都失败的概率. 

直观上看，一旦条件 X N ^ = X N = 1 满足的话，从那时开始，未来的过程由独 
立的伯努利实验组成.所以，关于未来事件的概率与重新开始的伯努利过程的相应 
概率是一样的，所以 P ( Xjv+i = Xn +2 = 0) = (1 — p ) 2 . 

现在对上述结论进行严格的证明. 注意， N 是一个随机变量，利用全概率公式 



260 第 6 章伯努利过程和泊松过程 


得到 

P ( Xat+i = X N+ 2 = 0) = P(N = n ) P ( X N+ i = X N+2 = 0 |iV = n ) 

n=l 

= ^ P(iV = n ) P ( X n+1 = X n+2 = 0 \N = n ). 

n=l 

因为 iV 确定后，事件 {iV = n } 发生，当且仅当&，…，满足某个特定的条 
件,而这些随机变量与 X n +1 , X n +2 是独立的，所以 

P (^ n+1 = X n+ 2 = 0| A ^ = n ) = P ( X„+1 = X n+2 = 0) = (1 - p ) 2 . 

故 oo 

PpOv+1 = X N+ 2 = 0) = y ^ P ( A ^ = n)(l - p ) 2 = (1 - p ) 2 . □ 

n=l 

6.1.2 相邻到达间隔时间 

与伯努利过程相关的一个重要的随机变量就是第 fc 次成功（或到达）的时间， 
记为 y fc . 与之相关的变量是第 fc 次相邻到达的间隔时间， 记为 T k . 即所谓 fc 次相 
邻到达的时间是第 fc - 1到达之后到第 fc 次到达之间所需的总时间.它们满足如 
下关系 

T \ = Vi , T k = Y k - Y k - i , fc = 2,3, ••- , 

见图 6.2 所示.同时它们还满足 

Yk = T -]_ + ■ ■ ■ + T k . 

. _^ . 

|o|o|i|o|o|o|o|i|o|i|i|o|o| a 
* T \ ** ¥ 2 * * T * ?4 时间 

图 6.2 相邻到达时间示意图，图中1代表一个到达.在这个例子中 ， 乃 =3, T 2 = 5, T 3 = 
2 , r 4 = i . 进一步，:^ =3, y 2 = 8, y 3 = io , y 4 = 11 

我们已经得到首次成功的时间乃服从参数为 P 的几何分布.有了第一次在时 
间： z \ 成功之后，未来是一个新的伯努利过程.利用重新开始的原理，下次成功所需 
的实验次数: r 2 与乃有相同的 分布. 进一步，过去的实验（直到，且包括时间：与 
未来的实验（从时间: z \ +1开始）是独立的.既然 r 2 仅仅由未来的实验决定，所以 
r 2 与乃独立.类似继续下去，我们可以得到随机变量 t u t 2 , t 3 ,... 都是相互独立 
的，而且具有相同的几何分布. 

这种重要的方法，可以给伯努利过程一个等价的另一种描述方法，这种描述方 
法有时更方便. 
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伯努利过程另一种描述 

(1) 开始于一串相互独立的， 参数为 p 的几何分布随机变量序列乃，: r 2 ，…， 
它们是相邻到达时间间隔. 

(2) 观测成功（或到达）的时间为 T ^ Tx +^^+^ + n , 等等. 


例 6.4 观测数据表明雨天之后，再次下雨所经过的天数服从参数为 p 的几何分 
布，而且与历史数据独立.求出本月第5天和第8天同时下雨的概率. 

如果我们用几何分布的分布列来解决这个问题，那么方法会非常繁琐.但是, 
如果我们将下雨看为“到达”，则我们就可以对天气描述为一个伯努利过程.所以， 
任何一天下雨的概率是 P ， 而且与其他的天数是独立的.特别地，在第5天和第8 
天同时下雨的概率就是 P 2 . □ 

6.1.3 第 fc 次到达的时间 

第 A : 成功（或到达）的时间心等于 fc 个独立同分布，服从几何分布的随机变 
量之和，即+…+ 这样我们就可以利用下表计算 R 的期鼠方差，分 
布列，见下表. 


第 fc 次到达的时间的性质 

•第 k 次到达的时间等于前 fc 个相邻到达时间之和 

Yk = Ti + ■ ■ ■ + Tk, 

而且: Ti ，…，巧独立同分布，服从参数为 p 的几何分布. 

• n 的期望，方差分别为 

E[n]=E[T 1 ] + --- + E[T fc ] = - ) 

P 

var [ y fc ] = var [ Ti ] H - h var [ T fc ] = k ^~ • 

• 的分布列是 

PY k (t) = O'l - P)*-' t = k,k + l, ■■- , 

这就是有名的阶数为 fc 的帕斯卡分布. 

下面我们来证明的分 布列. 首先注 意到％ 不小于 k . 对 t 彡 k , 注意到事 
件 { y fc = i } (第次成功的时间是 t ) 发生当且仅当下面两个事件同时发生 
( a ) 事件 A : 第 * 次试验成 功了； 
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( b ) 事件在前 i 一 1次试验中，恰好成功了 fc - 1次. 
这两个事件发生的概率分别是 


P(A) =p， 

和 

p(s)= o，-，' 

进一步，这两个事件是相互独立的（这是因为第 f 次试验成功与否，与前 f - 1 
次试验的结果是独立的)，所以 

Pn(t) = P(Y k = t) = P(A n s) = P(A)P(B) = ^)/(1 - pY~ k . 


证毕. 

例 6.5 在篮球比赛中，在每分钟内阿利莎犯一次规的概率是 P , 不犯规的概率是 
1- P . 在不同的分钟内是否犯规是相互独立的.阿利莎犯了 6次规后，就会被罚出 
场，否则的话就能比赛30分钟.那么参加篮球比赛的时间的分布列是什么？ 

我们对犯规的次数建立伯努利过程,参数为 p . 阿利莎参加比赛的时间为 Z , 如 
果他犯规次数为6, Z 就等于如果％ > 30, Z 就等于30,即 Z = min { F 6 ,30}. 
y 6 的分布是阶数为6的帕斯卡分布，即 

PY 6 {t) = C 5 ^/(l -p) t_6 , f = 6,7，〜 • 

为求 Z 的分布列 p z ( z ), 我们首先考虑 z 位于6 〜 29的情形.在这个区间内， 
p z ( z ) = P(Z = z )= P ( y 6 = z )=(^ Z ~ - p 广 6 ， 2 = 6,7, …， 29. 

Z = 30 的概率则由下式确定 


29 

Pz(30) = 1 - y^pz(z). 

z=6 


□ 


6.1.4 伯努利过程的分裂与合并 

伯努利过程每次到达的概率为 p , 现在考虑如下的 分裂： 每当有一个到达时，我 
们选择或者保留下来（概率为 g )， 或者抛弃（概率为1-0，见图 6.3. 假设保留还 
是抛弃的决定在不同的到达时间时是相互独立的.如果我们集中研究保留下来的 
过程，那么可以看到，保留下来的过程仍然是个伯努利过程.在每个时间瞬间，发生 
一次被留下到达的概率是列，而且跟其他的瞬间是相互独立的.相同的原因，被抛 
弃的到达过程也是伯努利过程，在每个瞬间发生被抛弃的到达的概率是 〆 1 一 g ). 
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I !•! I I I I I ❿ I❿ I Mill , 



时间 

图 6.3 伯努利过程的分裂示意图 


反之，如果有2个独立的伯努利过程（参数分别是 p 和 g )， 然后我们采取如下 
方法进行合并.一个到达被收录到合并的过程中，当且仅当在这两个原始的过程中， 
至少有一个是到达状态.那么这个事件发生的概率是 p + g- W (等于1减去两个 
过程都没有发生的概率 （1 - p)(l - g ).) 既然不同的时间瞬间，两个过程是相互独 
立的,合并后的不同的时间瞬间仍然是独立的.所以合并后的过程仍是伯努利过程， 
每次成功的概率是 p + q - pq , 见图 6.4. 

伯努利 过程 ⑼ —I m ill ii«i I I I I I ___ 

I II 时间 

合并的 t l \ 

伯努利过程 I lel lei I I I ala I I I lai I , 

(p+q-pq) || I 时间 

伯努利过程 (g) . I I I l«l I I J«l I I I N I __. 

时间 

图 6.4 伯努利过程的合并示意图 

伯努利过程（或其他过程）的分裂和合并在实际中经常发生.比如，两个机器 
工作中心可能有零部件到达流水线，然后把每个零部件随机分开到某一个机器.反 
之，一个机器可能面临许多不同类型的零部件，然后合并成一条流水线. 

6.1.5 二项分布的泊松近似 

n 次独立的伯努利试验成功的次数是一个二项分布的随机变量，参数为 n 和 
P , 期望为叩.在本小节里，我们集中处理一类特殊的 情况： n 充分大，而 p 很小, 
均值叩比较适中.这种情况发生在人们考虑的不是离散时间，而是连续时间的情 
形，这是 6 . 2 节讨论的主题 • 例如，人们考虑任何一天内发生飞机事故的总数，飞机 
飞行次数 n 很大，但是每次飞机发生事故的概率 p 很小.或者考虑一本书上的总 
共错 误数： 单词非常多，但是拼错的概率很小. 

数学上，我们可以这样处理，让 n 增长，但是同时缩小 p ， 这样可以保持它们的 
乘积 np 是一个固定值 A . 从极限意义上看,二项分布的分布列可以简化为泊松分 
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布列.下面将提供精确的描述，注意，泊松分布列已在第2章里推导出了很多很好 
的性质. 


二项分布的泊松近似 

• 参数为 A 的泊松分布的随机变量 Z 取非负整数值，其分布列如下 

p z (k) = e~ x ^, k = 0 ,l, 2 , ■■- 

均值和方差是 

E [ Z ] = A , 冒 ㈤ = A . 

• 当 n — oo , p = A / n 时，二项分布的概率 

副 fc 

收敛到 pz ( k ), 其中 A 是常数， fc 是任意的非负整数 • 

• 一般而言，泊松分布是二项分布的一个很好的近似，只要 x = np,n 非常 
大, P 非常小. 


现在我们验证泊松近似的正确性，设 A = np ， 则 

副邦-， ' 

n(n - 1) … (n - fc + 1) f _ X\ n ~ k 

fc! n fe \ n) 

_n n-1 n-fc + 1 

n n n k\ \ n J 

固定 A :， 令 n — oo . 比例项 —••• n ~ fc + 1 中的每一项都趋于 1, 而且① 
n n 



所以对固定的 fc , 当 n — oo , 我们有 

副- e_A ¥_ 

例 6.6 凭经验知，当 n 彡100, p < 0.01 ， A = np 时，泊松近似 

e ~ X ld ^ ' pk{1 - = 0,丄， 2 , …，几. 

①这里我们使用了有名的公式 lim^ocCl-i)^ = e- 1 . 设 ; E = n / 入， 则 lim„—00(1- 会 )™ A = e -i, 
所以 lim n —00(1 - 合 )" = e - 入 . " 
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的精度有好几位小数.现在检验一下近似的效果.看看下面这个例子. 

加里_卡斯帕罗夫是国际象棋世界冠军.他在一个表演赛中同时与100名业 
余爱好者对弈.从历史的经验来看，99%的比赛都是卡斯帕罗夫获胜（用精确的概 
率术语来说，我们假设他每局获胜的概率为 0.99, 而且各局比赛独立).现在我们计 
算他分别获胜100场，98场，95场和90场的概率是多少. 

我们对他总共失败的场数 X 进行建模，这是一个二项分布，参数为 n = 100, 
p = 0.01. 所以他分别获胜100场，98场，95场和90场的概率是 

px (0) = (1 _ O . Ol ) 100 = 0.366, 

Px(2) = 黑 0 鄉 -°- 01 ) 98 = 0. 185 ， 

px(5) = ^|^0.01 5 (1 - 0.01) 95 = 0.002 90, 

Px (10) = ^ y 0.01 10 (l - O . Ol ) 90 = 7.006 • 10_ 8 . 

现在我们来检验相应的泊松近似，参数 A = 100 • 0.01 = 1.即 
Pz ⑼ =e -1 ^ = 0.368, 

处⑺ 0.184 ， 

Pz(5) =e _1 ^j = 0.003 06, 

Pz(10) =e- x ^j = 1.001.10_ 8 . 

我们比较一下二项分布的 p x (k) 和泊松分布的 Pz (k), 可以看出它们对应的结果是 
相近的. 


现在我们再假设卡斯帕罗夫只跟5名对手同时对弈，但是这次对手的水平高， 
卡斯帕罗夫每场获胜的概率只有 0.9. 这里二项分布的分布列 p x ( k ) 中 ， n = 5 ,p = 
0.1, 相应的泊松分布 pz ( k ) 中 ， A = np = 0.5: 


k 

0 

1 

2 

3 

4 

5 

Px{k) 

0.590 

0.328 

0.072 9 

0.008 1 

0.000 45 

0.000 01 

Pz ( fe ) 

0.605 

0.303 

0.075 8 

0.012 6 

0.001 6 

0.000 16 


从上表可看出，近似效果，虽不差，但是与 n = 100 , p = 0.01 情形下的近似效 
果，精确度有显著的下降. 口 
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例 6.7 有 n 个字符连成一串组成一个信息包,在一个有噪声的通道中传输.每个 
字符有 p = 0.000 1的概率在传输中传错，而且不同字符的传输过程是独立的.问 
为保证在传输中发生错误的概率不超过 0.01, 这时 n 应该为多少？ 

每个字符的传输可视为一个独立的伯努利试验.所以整个信息包发生错误传 
输的概率为 


1-P(5 = 0) = l-(1- P r, 

其中 S 为错误传输的字符总数.为使整个信息包发生错误传输的概率小于0.01，只 
需解不等式 1 - (1 — 0.000 1)" < 0.01，即 


In 0.999 
In 0.999 9 


10.004 5. 


同样我们也可使用泊松近似的方法来计算= 0)，即 : 
X = np = 0.000 1 - n . 由条件 1 — e -° 000 l n < 0.001, 可以得到 


\这里 


0.000 


n 是一个整数，两种方法都得出相同的 结果： n 最多是 10. 


6.2 泊松过程 

跟伯努利过程相比，泊松过程是连续时间轴上的到达过程 .® 通常，一个到达过 
程在应用上无法将连续时间离散化时,就采用泊松过程来刻画.可以说泊松过程是 
伯努利过程的连续版本. 

现在从一个例子来看这种连续化的必要性.考虑一个城市内的交通事故的可 
能模型.可以将时间分割成以分钟为单位的时间段，然后开始记录下每分钟至少发 
生了一次交通事故的“成功” 数据. 假设交通事故率不随时间而发生变化,是个常 
数，则在每个时间段内发生事故的概率是相同的.进一步假设（也非常合理）在不 
同的时间段里,事故发生是相互独立的.这样得到的成功数据序列就是一个伯努利 
过程. 注意，在实际生活中，在相同的1分钟时间段里，发生2次或者多次事故是 
非常可能的.但是伯努利过程不能记清楚到底发生了多少次事故，特别地，它无法 
计算在给定的时间段内的事故发生平均次数. 

克服这个缺点的一种可行方法是把时间段选得非常小，使得发生两次或多次事 
故的概率非常小，以致可以 忽略. 但是多少才算小？ 1秒钟？还是1毫秒？为避免 
这种随意的选择，人们更喜欢考虑这个时间段的长度趋于零的情况，即连续型时间 
模型. 


①统计上也称泊松过程为点过程.——译者注 
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现在考虑连续型的到达过程，即任意的实数 t 都有可能是到达时刻.我们定义 
P ( k , r )= P (在时间段长度为 t 的时间内，有 fc 个到达). 

注意这个定义的内涵，它没有指明区间的位置，这意味着，不管这个区间的位置在 
哪儿，只要时间区间的长度为 T ， 这个区间内的到达数的分布律就是 P(k,T),k = 
0,1,… . 此外，我们还要介绍一个正参数 A , 称之为过程的到达率或者强度.由下面 
的解释很快就会明白这个参数的重要性. 


泊松过程的定义 

一个到达过程，被称为强度为 A 的泊松过程，如果该过程具有如下 性质： 

( a ) (时间同质性） fc 次到达的概率 P ( k , r ) 在相同长度 r 的时间内都是一样 
的. 

( b ) (独立性） 一个特定时间段里到达的数目与其他时间段里到达的历史是独 
立的. 

( C ) (小区间概率） 概率 P ( fc ， T ) 满足如下关系 

P (0, r ) = 1 - Ar + o ( r ), 

P(1， t) = Ar + oi ( r ), 

P ( k , r ) = Ofe ( r ), fc = 2,3, ••- 
这里 t 的函数 o ( t ) 和 o fc ( r ) 满足 

lim ^=0, lim ㈣ =0_ 

r—>0 T r—0 丁 


第一个性质，人们称为“到达”在任何时候都是“等可能”的.在任何长度为 T 
的时间段里，到达数具有相同的统计性质，即具有相同的分布律.这与伯努利过程 
中的 假设： 对所有的试验，成功的概率都是 P ， 是相对应的. 

为解释第二个性质，考虑一个特殊时间长度为 t '~ t 的区间在这个时间 
段里，发生了 fc 次到达的无条件概率是 P { k , t '~ t ). 假设我们手里有这个区间之外 
的完全或者部分到达的信息.那么性质 （ b ) 是说，这个信息是无用 的：在 [ f , 灼内发 
生了 fc 次到达的条件概率仍是无条件概率 P ( k , t '- t ). 这个性质类比于伯努利过 
程的试验独立性. 

第三个性质非常关键 . 0 (T) 和 O k (T) 项是指它们相对 T 而言，当 T 非常小的时 
候，是微不足道的.可以将这些余项理解为 P ( k , T ) 做 Taylor 展开时，展开式中的 
0(t 2 ) 所以,对非常小的 t ， 到达一次的概率大致是 Ar ， 加上一个微不足道的项. 
类似地，对非常小的 t ， 没有到达的概率大致是 1- Ar , 到达两次或更多次的概率大 
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致与/>(1，幻相比是可以忽略的. 

6.2.1 区间内到达的次数 

现在开始推导泊松过程中与到达相关的概率分布.首先与伯努利过程建立联系 
来计算一个区间内到达次数的分布列. 

先考虑一个固定的长度为 r 的时间区间，将它分成个小区间，每个小区间 
的长度为5是一个非常小的数，见图 6.5. 由性质 （ c ) 可知,任意一个小区间内有 
两次或更多次到达的概率是非常小的，可以忽略不计.而且由性质 （ b ) 知，不同的 
时间段到达的状况又是相互独立的.更进一步地，在每小区间内，到达一次的概率 
大致是 A 5, 没有到达的概率大致是 1— A <5. 所以这个过程可以大致由伯努利过程来 
近似.当 J 越小，这个近似就会越来越精确. 

小区间数： 每个小区间内 到达数的 期望： 

n=r/S 到达的 概率： np=Xr 

p=X8 

mm 

0 ^ r 时间 

到达 

图 6.5 长度 t 的时间段内的泊松过程伯努利近似的示意图 

在时间 T 到达次的概率 P ( k , T ) 近似地等于以每次实验成功概率为 p = A 5, 
mfn = t /8 次独立伯努利试验，而成功 fc 次的（二项）概率.现在保持 t 不变，令 
5趋于 0. 我们注意到，这时时间段数目 n 趋于无穷大，而乘积 np 保持不变，等于 
Ar . 在这种情况下，在上节里，我们已经证明了二项分布趋于参数为 At 的泊松分 
布,于是我们可以得到如下重要结论 

P ( k , r )= e -^^, fc = 0， l , …. 

注意，由 e - h 的泰勒展开，可以得到 

P(0，T)=e_ AT = l — ；\ T + 0(T)， 

P(1,t) = Are- Ar = Ar - A 2 r 2 + 0( r 3 ) = Ar + oi ( r ), 

跟性质 （ c ) 相符. 

利用泊松分布的均值和方差的公式，可以得到 

E [ iV T ] = At , var ( AT T ) = Ar , 

其中队表示在时间长度为 t 的时间段中到达的次数.这些公式一点都不令人惊 
讶.这是因为我们考虑的是参数为 n = t /5 和 p = 的二项分布的极限分布，均 
值为 np = At , 方差为 np(l — p ) ^ np = Ar . 
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现在推导首次到达的时间 r 的概率规律.假设起始时间为0,则 : T > * 当且仅 
当在时间队幻内没有一次到达,所以 

F T (t) = P(T ^ t) = 1 - P(T > t) = 1 - P{0,t) = 1 - e~ xt , t > 0. 

然后我们对 r 的分布函数求导，得到密度函数公式 


f T (t) = Xe~ xt , t > 0. 


这就说明首次到达时间服从参数为 A 的指数分布.我们将得到的结论总结为下表. 
也可参见图 6.6. 


泊松过程相关的随机变量及其性质 

• 月 B 从参数为 At 的泊松 分布. 这是泊松过程的强度为 A , 在时间长度为 r 
的区间内到达的总次数凡的分布.它的分布列，期望和方差分别是 

Pn t (fc) = P{k,r) = e_AT (^!) ， fc = 0, 

E[N t ] = Ar, var(AT r ) = Ar. 

• 服从参数为 a 的指数 分布. 这是首次到达的时间 r 的分布.它的分布列， 
期望和方差是 

f T (t) = Xe~ xt , t^O, E[T] = var(T) = 


到达 


p= X6 

时间 



泊松 

伯努利 

到达时间 

连续 

离散 

到达次数的分布 

泊松 

二项 

相邻到达时间的分布 

指数 

几何 

到达率 

A / 单位时间 

"每次试验 


图 6.6 伯努利过程可以看成泊松过程的离散化.我们将区间分为长度 <5的小区间，与每个 
小区间对应一个伯努利试验，其参数 = 上表汇总了两个过程的对应关系 

例 6.8 假设收电子邮件是一个强度为每小时 A = 0.2 封的泊松过程.每隔1小 
时，检查一次电子邮件.那么接到0封和1封新邮件的概率是多少？ 
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可以使用泊松分布 e -^{\ r ) k / k \ 来计算，这里 r = l，fc = 0 或 fc = l : 

P (0,1) = e " 0 - 2 = 0.819, P ( l , l ) = 0.2 e -°- 2 = 0.164. 

又假设一天都没有检查电子邮件.那么一封电子邮件都没有收到的概率是多 
少？我们再次使用泊松分布来计算，即 

P (0,24) = e - 0 . 2 . 24 = 0.008 3. 

另一方面，我们也可以这 么想. 在一天24个小时里都没有收到信息，那么连续24 
个1个小时都没有收到信息.而后者24个事件都是相互独立的，而且每个事件发 
生的概率是 P (0， l ) = e - 0 2 , 所以， 

P (0,24) = ( P (0, l )) 24 = ( e -°- 2 ) 24 = 0.008 3. 

这个结果与上面的一样. 口 

例 6.9 (独立泊松随机变量之和仍是泊松）顾客去超市购物可以用泊松过程来刻 
画，强度为每分钟 A = 10个 顾客. 记 M 为9:00到9:10来超市的顾客总数 . TV 为 
9:30到9:35来超市的顾客总数.那么 AT + M 的分布是什么？ 

注意， M 是泊松的，参数是 M = 10 x 10 = 100, N 也是泊松的，参数是 v = 
10 x 5 = 50. 进一步， M 和 7 V 是独立的•在 4.4 节里，运用矩母函数的方法已经证 
得 M + iV 也是泊松分布，参数是 M + i/ = 150 (也可参见第4章习题 11). 现在我们 
用直观的方法来推导这个公式. 

记及是在时间9:10到9:15来超市的顾客总数，则#与 7 V —样是泊松的（参 
数为50)，而且及与 iV 独立.所以 M + AT 的分布与 M + N 的分布是一样的.但 
是 M +及 是长度为15分钟的时间区间内来超市的顾客总数，所以仍是泊松分布， 
参数是 10 X 15 = 150. 

这个例子的结论是普遍的_对于一个泊松过程来说，设 X 为若干个不相重合 
的区间内的到达总数，则随机事件 X = k 的概率为 P { k , r ), 其中 T 为这些不相交 
的区间长度的总和.上述结论中，不相交的区间的个数是不受限制的，只要他们的 
总长度为 r (在本例中，我们处理的是时间段 [9:00,9:10] 和 [9:30,9:35], 总时间是 15 
分钟). □ 

6.2.2 独立性和无记忆性 

泊松过程有许多性质与伯努利过程是类似的，比如不相交时间区间内的到达是 
相互独立的，相邻时间分布的无记忆性.泊松过程也可视为伯努利过程的极限的情 
况，所以泊松过程继承了伯努利过程的许多性质，也是不奇怪的. 
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泊松过程的独立性质 

• 对任意给定的时间 f > 0,时间 f 之后的过程也是泊松过程，而且与时间 t 
之前（包括时间 *) 的历史过程相互独立. 

• 对任意给定的时间 t , 令 f 是时间 i 之后首次到达的时间，则随机变量 
宁服从参数为 A 的指数分布，且与时间 t 之前（包括时间 t ) 的历史过 
程相互独立. 


上表中的第一个性质成立，是因为从时间 * 开始的过程满足泊松过程定义的性 
质.未来与过去的独立性直接来源于泊松过程定义中的独立性假设.最后，: f -1 具 
有相同的指数分布，这是因为 

P ( T - t > s )= P (在时间[*，亡 + s ] 没有到达）= P (0, s ) = e - As . 

这就是无记忆性，这个性质与伯努利过程的无记忆性是类似的.下面两个例子运用 
了这个性质. 

例 6.10 你和朋友一起去网球场，需要一直等到正在打球的人打完为止.假设（有 
些不太现实）他们打球的时间服从指数分布.则不管他们什么时候开始打球的，你 
们等待的时间（等价地,他们打球的剩余时间）也是相同的指数分布. □ 

例 6.11 进入银行，你会发现有3个营业员在服务客户，而且没有其他人在排队 
等待.假设你的服务时间和正在服务的客户的服务时间都是具有相同参数的指数分 
布，且相互独立.那么你是最后一个顾客离开银行的概率是多少？ 

答案是 1/3. 从你开始接受一名营业员服务的那一刻算起，另两名正在接受服 
务的顾客还需要的服务时间，与你所需要的服务时间具有相同的分布.另外两位顾 
客，虽然比你早接受服务，但由于泊松过程的无记忆性，他们与你处于同一起跑线 
上，不算以前的服务时间，三人所需的服务时间的分布是相同的.所以你和其他2 
人具有相同的概率最后离开银行. □ 

6.2.3 相邻到达时间 

设有一个从时刻0开始的泊松过程.与这个过程相关的重要的随机变量是第 
k 次成功（或到达）的时间，记为与 R 密切相关的变量是第 fc 次相邻到达的 
时间， 记为 n . 这些变量满足如下关系 

Ti = Y lt T k = Y k - fc = 2,3, … ， 

T k 的含义是在 fc - 1 次成功之后到下次成功所需的时间.由上面的关系，可以推导 
得到 


Y k = T x + ■■■ + T k . 
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我们已经得到首次到达的时间服从参数为 A 的指数分布.第一次在时刻 
成功之后，未来是一个新的泊松过程， ® 因此，下次到达所需的时间 r 2 与乃有相同 
的分布.进一步，过去的过程（直到,且包括时间1\)与未来的试验（从时刻以后 
开始）是独立的.既然: r 2 仅仅由未来决定，所以 r 2 与乃独立.类似继续下去，我 
们可以得到随机变量序列 T lt T 2 , T 3 ,--. 是相互独立的，而且具有相同的指数分布. 
这个重要的结论，可以给泊松过程一个等价的另一种描述方法. 


泊松过程另一种描述 

(1) 开始于一串相互独立并且公共参数为 A 的指数随机变量序列 T u T 2 ,---, 
它们是相邻到达时间. 

(2) 过程的到达的时间为 TuT .+^^+^+ n , 等等.这样形成的随机过 
程就是泊松过程. 


6.2.4 第 fc 次到达的时间 


第 fc 成功的时间 U 等于 fc 个独立同分布且服从指数分布的随机变量之和，即 
Y k = T 1 + -.- + T k . 这样我们就可以利用下表计算 K 的期望、方差、分布列. 


第 fc 次到达的时间的性质 

•第 k 次到达的时间等于前 A : 个相邻到达时间之和 


Y k = T X + ■■■ + T k , 


而且乃,…，％独立同分布，服从参数为 A 的指数分布. 
- n 的期望、方差为 

E[y fc ] = E[T 1 ] + --. + E[r fe ] = p 
var(y fc ) = var(Ti) + ■•■ + var(T fc ) = 

• n 的分布密度是 


油)=鮮 

这就是有名的阶数为 fc 的埃尔朗分布 ®. 


y>o, 


① 以前我们说的随机过程“重新开始”是指从任意固定的时刻 t 开始的随机过程.现在的“重新开始” 
结论比较强，这是因为开始时刻是随机变量.但是这个结论还是很直观的.可以用类似例 6.3 的 
证明方法证明这个重新开始的过程还是一个泊松过程，即对乃可能的取值取条件的方法,来证明现在 
的结论. 

② 也称伽玛分布.一译者注 
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下面我们来证明 K 的分布密度公式.对非常小的 <5,乘积 Sf Yk ( y ) 可以近似看 
成在时间 2 /与 y + 5之间第 / c 个到达的概率 ® 当 <5非常小时，在区间 [ y,y + S } 到达 
的次数超过1次的概率是可以忽略的.在 y 与 y + <5之间第 fc 次到达发生当且仅 
当下面两个事件同时发生. 

( a ) 事件 A : 在时间段 [ y,y + 5] 到达了 一次； 

( b ) 事件在时间 y 之前恰好发生了 fc — 1次. 

这两个事件发生的概率分别是 


P ( B ) = P ( k - l , y ) = 


P ( A ) « \ S , 

yk-lyk-l e -\y 


(fc-1)! 


事件 A 与 S 是相互独立的，所以 


SfY k ( y ) ^ P ( y ^ Y k ^y + S )^ P(A nB )= P ( A ) P ( B ) « A 〆 :》:-;) 6 广 ， 

所以 

\k,k-l p -Xy 

油 ) = ^ r ，0°. 

例 6.12 你拨打国税局的热线电话后，被告知，除正在接受服务的人外，你前面还 
有55位等待 服务. 呼叫者离开所需时间是泊松过程，强度 A 是每分钟2人.那么 
平均而言,直到接受服务你需要等待多长时间？你的等待时间超过30分钟的概率 
是多少？ 

利用无记忆性，正在接受服务的人还需服务的时间服从参数为 A = 2 的指数分 
布.所以你前面55人的服务时间也是服从参数为 A = 2的指数分布.而且所有这 
些变量都是独立的.所以你等待的时间，记为 y ， 是56阶的埃尔朗分布，所以 

E [ Y ] = y = 28. 

①下面介绍的推导方法不使用近似方法论证.注意到对任意的 y 彡0,事件 { y fc < 2/} 与下列事件相同 
{ 在时间 [0， y ] 内至少到达&次}. 

所以 U 的分布是 

F Yk (y) = p(Xk = X] p ( n ，y ) = 1 - E p ( n ，y) = 1 - [ - Xy ^ ^ Xy ■ 

n=k 71=0 n=0 

y k 的密度函数可通过对上述表达式对 y 求导得到，直接求导就可以得到 Erlang 密度函数公式 
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你的等待时间必须超过30分钟的概率是 

计算上述概率非常麻烦.另一方面，既然 F 是一串独立同分布随机变量序列之和, 
我们可以使用中心极限定理和正态分布表来近似计算. 口 

6.2.5 泊松过程的分裂与合并 

类似于伯努利过程，强度为 A 的泊松过程，也可以按如下的方法进行分 裂：每 
当有一个到达时，我们选择保留下来（概率为 P )， 或者抛弃（概率为1 - g )， 而不管 
其他情况.在伯努利过程，我们知道分裂后的伯努利过程仍是伯努利的.在现在的 
情况下，泊松过程分裂出来的过程仍是泊松的，只是强度为 Ap . 

类似地,如果有两个相互独立的泊松过程（参数分别是 At 和 A 2 ), 在这两个原 
始的过程中，随便哪一个到达，就认为一个新过程的到达，这个新过程就是原来过 
程的合并过程.可以证明这个合并过程还是泊松的，强度为 A 1+ A 2 . 合并后的过程， 
任何一个到达状态以 A !/( A 1+ A 2 ) 的概率来自于第一个泊松过程，以 A 2 /( A 1+ A 2 ) 
的概率来自于第二个泊松过程. 

我们举例来说明这些性质，同时提供证明方法. 

例 6.13 (泊松过程的分裂）到达数据网络某个节点的信息包可能是目的地信息 
包（目的地信息包的定 义是： 这个信息包以该节点为目的地,不再转发到其他节点. 
到达的信息包为目的地信息包的概率为 P )， 也可能是转发的信息包（这种事件发生 
的概率为 i — p )， 这样的信息包必须转发到其他节点.信息包到达节点的过程是泊 
松过程，强度为 A ， 而且到达信息包的类别与其他到达信息包的类别是相互独立的. 
如前所述，接收目的地信息包的过程也是泊松的，强度是 Ap . 下面对此进行解释. 

我们只需验证目的地信息包的到达过程满足泊松过程的定义.因为 A ， p 是常 
数，不随时间变化而变化.任何时间长度为 t 的区间内的到达次数的分布与这个 
区间的位置无关.所以第一条性质（时间同质性）满足.进一步，无论到达的信息包 
是否为目的地信息包，在不相交的时间区间内，这些事件都是彼此独立的，这就验 
证了泊松过程关于独立性的第二条性质.最后,我们重点研究长度为 <5的一个小区 
间，目的地信息包到达的概率就是 事件： 有一个信息包进入节点，而且这个信息包 
就是目的地信息包的概率，这个概率近似于 \ S - p . 另外，两个或多个目的地信息包 
到达节点的概率相对于5而言，是忽略不计的，这就验证了泊松过程关于小区间内 
到达次数的分布列的第三条性质.所以我们得出目的地信息包到达过程也是泊松 
过程.特别地，在长度为 t 的时间内，到达的目的地信息包的数目服从强度为 
的泊松分布.由对称性，转发信息包的到达过程也是泊松的，强度是 ( l - p ) A . 有点 
奇怪的是，从原始泊松过程分裂出去的两个泊松过程居然是相互独立的.见本章末 
习题_ 口 
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例 6.14 (泊松过程的合并）人们去邮局寄信的到达过程是泊松过程，强度是 A 1; 
去邮局邮寄包裹的到达过程也是泊松过程，强度是 A 2 , 而且邮信与邮包裹是独立的. 
这样，人们进邮局办事（寄信或邮寄包裹）的到达过程是泊松的，强度是 A 1 + A 2 .下 
面对此进行解释. 


首先，合并后的过程显然满足泊松过程的时间同质性（时间区间内到达个数的 
分布列只与区间的长度有关，与区间的起始时刻无关)，进一步，原来的两个随机过 
程在不同的时间区间内所发生的事件是相互独立的，所以合并后的过程在不同的时 
间区间内所发生的事件也是相互独立的.这说明合并后的过程也符合泊松过程定 
义中的独立性要求.现在考虑 J 长的小区间，在下面的推论中近似号“《，’表示两 
边相差一个与 <5相比可忽略的项.我们有 


P (合并后过程在小区间内无到达） «(1- X 1 d )( l - X 2 6) « 1 - ( A x + \ 2 ) S , 

P (合并后过程在小区间内只有 1 次到达） «A 1 <5(l-A 2 (5)+A2(5(l-Ai(5)«(A 1 +A 2 ) ( 5. 
由上式看出，合并后的过程满足泊松过程定义的第三个要求，并且其强度参数为 

Ai + 入2. 

假设记录了一个人进入邮局，问这个人来寄信的概率是多少？首先将焦点放在 
某时刻附近的时间长度为 <5的小区间里，此时把问题化为一个条件概率的计算问 
题，即计算 

P (1 个寄信的人进了邮局 | 有个人进了邮局). 

使用条件概率的定义，忽略超过1个人进邮局那些小概率值，得到 


P (1 个寄信的人进了邮局 ） _ A x <5 A ! 

p (有个人进了邮局)~ ^ ( Ai + a 2 )5 = aTTa ^' 

由泊松过程的性质可知，这个条件概率与这个人进入邮局的时刻无关，这个人是来 
“寄信”的概率也是 A 1 /( A 1 + A 2 ). 现在记4为事件“第个进入邮局的人是来寄 
信的”，类似可得 

因为不同的人,到达的时间也不一样.所以,对泊松过程，不同时间的事件是相互独 
立的，所以随机事件心，1 2 ,…是独立的. □ 

例 6 .i 5 (竞争指数）两个灯泡@具有独立的寿命 r a 和 r fc , 它们分别服从参数为 
A a 和 A 6 的指数分布.问两个灯泡首次烧坏的时间 Z = min { r a , T b } 的分布是什么？ 


①如果把两个灯泡串联起来，形成一个串联系统.当其中一个灯泡寿终的时候，系统就寿终.系统的寿 
命就是本例中的首次烧毁的灯泡的寿命.串联系统在可靠性统计具有重要的地位.——译者注 
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对任意的 z > 0,有 


F z {z) = P ( min { T a , T b } < z) 

= l - P ( min { T a , T 6 } > z) 

=1 - P ( T a > z,T b > z) 

= l-P(T a >z)P(T b >z) 

=1 - e _ A <, z e _Ai,z 

=\ — e— ( 入 a+ 入 b)Z 

这就是参数为 A a + A fc 的指数分布的分布函数.所以两个独立的参数分别为 A a 
和 A fe 的指数分布随机变量之较小的随机变量服从参数为 A a + A h 的指数分布. 

可以更直观地解释这个事实.假设 r a 和 r b 分别是强度为 A a 和 A 6 的泊松过程 
首次到达的时间.如果我们将两个过程合并，那么首次到达的时间是 min { T a , T b }. 
我们已经知道合并后的过程是强度 为乂 + Ab 的泊松过程，所以首次到达时间 min { T a , 
乃}是指数分布，参数为 A a + A & . □ 

上例的结论可以推广到更多过程的情形.即 n 个独立的泊松过程，强度分别为 
Ax ,--- , A „, 则合并后的过程仍然是泊松的，强度是 Ai + •■■ + A ri . 

例 6.16 (竞争指数的进一步讨论）点亮三盏灯泡，其寿命分布都是参数为 A 的指 
数分布，而且相互独立.那么直到最后一盏灯泡烧坏的时间的期望值是多少？ 

我们已经讲过，每盏灯泡烧坏的时间可视为独立泊松过程的首次到达时间.开 
始，我们有三盏灯泡,所以合并后的过程是泊松过程,强度是 3 A . 所以第一次烧坏 
的时间乃服从指数分布，参数是 3 A ， 均值是 1/3 A . 一旦有一盏灯泡烧坏了，由指 
数分布的无记忆性，剩下的两个灯泡的寿命时间仍是指数分布，而且独立，重新开 
始.所以我们有两个泊松过程.剩下的两个过程合并后仍是泊松过程，强度是2入. 
故首次烧坏的时间: T 2 服从指数分布，参数是 2 A , 均值是 1/2 A . 最后，在第二盏灯 
泡烧坏之后,只剩下一盏灯泡.再次运用无记忆性,最后一盏灯泡烧坏的时间 r 3 是 
指数分布，参数是 A ， 均值是 1/ A . 故整个时间的期望值是 

E[T 1 + r 2 + r3] = ^ + ^ + i 

注意，因为无记忆性，随机变量 T ^ Ts 是独立的.这样，人们也可以计算总 
时间的方差 

var(Ti + ?2 + T3 ) = var ( Ti ) + var ( T2 ) + var (^"' 3 )= + □ 

6.2.6 伯努利过程和泊松过程，随机变量之和 


利用伯努利和泊松过程的分裂和合并过程的性质，可以既巧妙又直观地得到独 
立随机变量之和的许多有趣的性质.当然，你也可以直接按定义推导出有关分布， 
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或者利用矩母函数进行分布推导.但是这些方法都不是很直观.我们将这些性质归 
纳如下表. 


随机数个独立随机变量和的性质 

设 MXi ，…，是独立随机变量，其中 iV 取非负 整数. 当 TV >0时，定义 
y = Xi + . • • + X w ， 当 7 V = 0时，定义 Y = 0. 

• 如果 Xi 的分布是参数为 p 的伯努利分布， iV 的分布是参数为 m 和 g 的 
二项分布，则 F 的分布是参数为 m 和 M 的二项 分布. 

• 如果的分布是参数为 p 的伯努利分布，的分布是参数为 A 的泊松 
分布，则7的分布是参数为 Ap 的泊松分布. 

• 如果 Xi 的分布是参数为 p 的几何分布， iV 的分布是参数为 g 的几何分 
布，则的分布是参数为 W 的几何分布. 

• 如果 Xi 的分布是参数为 A 的指数分布， TV 的分布是参数为 g 的几何分 
布，则7的分布是参数为知的指数分布. 


前两个性质在习题 22 中证明，第三个性质在习题6中证明，最后一个性质在 
习题 23 中证明.最后三个性质也在第 4 章中得到证明，在那里是使用矩母函数的 
方法来证的（参见 4 . 4 节和第 4 章的最后一个习题).此外，在习题 24 中给出了另 
一个有趣的性质，即记 7 V t 是在长度*的时间内强度 A 的泊松过程到达的总数目, 
T 为时间长度,服从参数为"的指数分布，且与泊松过程独立，则 AT t + ： L 的分布是 
几何分布,参数为 vj {\ + u ). 

下面我们讨论一个更深的相关 性质. 一个非常大数目（不必是泊松）多个的独 
立到达过程的合并，是否可以用强度为各自强度之和的泊松过程来近似呢？每个过 
程的强度相对总过程而言是非常小的（所以它们之间没有一个过程对总过程的概 
率特征施加影响)，而且它们必须满足一些数学上的假设.更深的讨论超出本书的 
范围. 但是注意，在实际中，的确需要对大量类似泊松的过程的大样本性质进行分 
析. 比如，城市里的电话通信流量就是由许多分支的小的过程合并而成，每个分支 
的小过程刻画了当地居民打电话的性质.这些小的过程不一定是泊 松的. 比如，有 
些人喜欢一批人一起打电话（小型电话会议)，同时一个人在打电话的时候是无法 
接听第二个电 话的. 但是,将许多小的过程合并以后可以使用泊松过程来刻画.相 
同的原因，城市里汽车事故的过程、商店里顾客的到达过程、放射性物质的粒子发 
射过程等,都可以使用泊松过程. 

6.2.7 随机插入的悖论 

泊松过程的到达时间序列将时间轴分割成一串相邻的时间间隔序列，每个时间 
段开始于一个到达，结束于下一个到达.已经证得每个相邻时间段的长度（称为相 
邻到达时间）是相互独立的、参数为 A 的指数分布的随机变量，其中 A 是泊松过程 
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的强度.更精确地说,对每个 k , 第 k 个相邻到达时间服从指数分布.在这个小节里， 
我们从另一个角度来看这些相邻到达时间. 

固定一个时间点 r ， 现在来看包含时间点 r , 长度为 l 的相邻时间段.现在看 
一看这个问题的实际背景，比如有一个人，在一个任意的时间点到达公共汽车 
站，然后记录前次汽车到达与下一次到达的时间间隔.通常称这个人的到达为“随 
机插入”，然而，这个词汇容易引起误导， r 只是一个特定的时间，不是随机变量. 

假设 r 比泊松过程的起始时间大得多，所以可以明确地知道，在时间 t * 之前 
有到达.为避免时刻 r 所引发的这种担忧，我们假设泊松过程的起始点为 - oo , 所 
以可以确信在时间 r 之前有到达, 从而 L 有定义.人们会错误地认为 L 只是一个 
“典型”的相邻时间段的长度，因此也是指数分布的，但是这是错误的.事实上，我 
们将证明 L 服从阶数为2的埃尔朗分布. 

这就是有名的随 机插入的影响 或者随 机插入悖论， 可以使用图 6.7 来解释.假 
设 [ U , V ] 是含时刻 r 的相邻时间段，则 L = y - [/. 特别地， u 是 t * 之前的最后 
一次到达时间， V 是 r 之后的首次到达时间.将 i 分成两部分 

L = ( t *- U ) + { V - t *), 

其中 r - C 7 是已经过去的时间， y - r 是剩下的时间.注意， t *- u 取决于过程的 
历史 （ t * 之前)，而 v _ r 取决于过程的未来 （ r 之 后). 由泊松过程的独立性，随 
机变量 v _ t * 与 t * — [/ 是独立的.由泊松过程的无记忆性,泊松过程从时刻 r 从 
新开始，所以 v - r 也是参数为 a 的指数分布.当然随机变量 t *- u 也是指数的， 
参数为 A . 得到这个结论的最简单方法 就是： 如果泊松过程倒着运行，仍是泊松过 
程.这是因为泊松过程的定义中时间不管是顺着的还是倒着的，没有什么区别.下 
面的公式是关于 t *- u 的分布之结论的严格证明 


P ( t * - U > x ) = P (在时间段 [r — x , t *} 内没有到达） = P (0, x )= e ~ Xx , x ^ O . 


于是我们就证明了 L 是两个参数为 A 的独立指数分布随机变量之和，即是阶数为 
2的埃尔朗分布，均值是 2/ A . 


流逝的时间' 


选定的时刻 


时间 
剩余的时间 


图 6.7 随机插入影响示意图.对于固定时间点广对应的相邻时间段 [ U , V ] 的 组成： 流逝 
时间 t *- U 与剩余时间 V - t \ 这两个时间变量是独立的，服从参数为 A 的指数 
分布，所以它们之和服从阶数为2的埃尔朗分布 
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随机插入现象通常让人产生误解和造成失误，但是这通常能够通过仔细地选择 
概率模型来避免.关键的问题是，一个观测者到达的任意时刻更可能落在一个较大 
而不是较小的时间间隔区间里，因此，在这种情况下，从观测者观测的平均长度将 
会为 f ，比指数分布的均值 1/ A 要大.类似的情况在下面的例子中也会发生. 

例 6.1 7 (非泊松达到过程中的随机影响）公交车按照一定的规定分别于整点和 
整点后5分钟到达车站，这样到达间隔时间在5分钟和55分钟交替，平均到达间 
隔时间是 3 0分钟.一个人在某随机时刻到达公交车站.我们说“随机，，是指在某特 
定小时内均匀分布.这样一个人落在长度为5的间隔区间的概率为吾，落在长度为 
55的间隔区间的概率为發，则到达间隔时间的期望值是 

5 • — + 55 _ 菩= 50.83 

这比平均到达间隔时间30分钟要大得多. 口 

如上例所示，随机插入是一个引起更大的相邻到达时间间隔的微妙现象，已在 
非泊松过程的上文中被很好地 说明. 更一般地说，当不同的计算方法给出了相悖的 
结论时,往往是他们给予了不同的概率机制.比方说，考虑给定一个非 随机的 观 
察相应的第 fc 个相邻到达时间的试验与固定时间*，观 察第冗 个相邻到达时间间 
隔覆盖 f 的试验是完全不同的，其中欠可视为随机变量. 

考虑最后一个有类似味道的例子.关于城市公交车使用情况的调査，一种方法 
是随机选择一些公交车，并计算所选车辆的平均乘车人数.另一种方法是随机选择 
一 些公交乘客，观察他们所乘的公交车并计算出这些车上的平均乘车人数这两种 
方法得到的估计有很大的不同，而第二种方法的估计明显偏高，原因是当使用第二 
种方法时,我们更容易选择到具有大量乘客的公交车，而不是几乎空着的车 • 

6.3 小结和讨论 

在本章中，我们介绍和分析了两种无记忆到达过程.伯努利过程涉及在离散时 
间，在每一步离散时间中都有一个常值的到达概率泊松过程涉及连续时间，对 
于每一个长度为5 > 0的小区间里，都有一个到达的近似概率 A <5. 在两种情况中， 
不相邻的时间间隔中到达的次数是独立的.在离散时间间隔是一个很小的值5时， 
泊松过程可以看作是伯努利过程的极限 情况. 这个事实可以用来提炼两个过程^ 
要性质的相似处,将一个过程的本质转移到另一个过程中_ 

使用伯努利过程和泊松过程的无记忆性，我们得到如下 结论： 

( a ) 对于给定长度的时间间隔，到达次数的分布列是二项分布或泊松 分布； 

( b ) 相邻到达时间分别服从几何分布和指数分布； 

( c ) 第 fc 次到达时间的分布分别为 fc 阶帕斯卡分布和 fc 阶埃尔朗分布. 
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此外，我们发现，可以从两个独立的伯努利（或泊松）过程开始，将它们合并后 
形成一个新的伯努利（泊松）过程.相反地，如果以投掷硬币的成功概率 P 接受每 
一次到达（“分裂”)，则接受的到达过程仍是伯努利过程或泊松过程，只是平均到达 
率或强度是原始到达率的 P 倍. 

我们最后考虑了随机插入现象，它是指一个外在观测者在某特定时刻到达并测 
量了他到达的那个到达时间间隔.测量的区间的概率性质与传统的“典型”的到达 
间隔区间的概率性质不同，原因就在于观测者的到达时间更可能会落入大一些的到 
达间隔时间区间中.这种现象说明，当谈及“典型”区间时，我们必须仔细描述区间 
选择的机制，不同的机制会导致不同的统计性质. 

习 题 

6.1 节伯努利过程 

1. 某单位有两辆货车，一辆是红色的，另一辆为绿色的.现在一共有 n 个包裹需装到车上. 
装车的时候，每一个包裹都是独立地放到红色货车（以概率 P ) 或绿色货车（以概率1 - p ) 
上的，设 B 为红车上包裹的总个数， G 表示绿车上包裹的总个数. 

( a ) 确定随机变量的分布列，期望和方差值. 

( b ) 求第一次装车的时候将一个包裹装上某辆车，一直到装完第 n 个包裹以后，这辆车 
上还只有一个包裹的概率. 

( c ) 计算在装完货以后至少有一个货车只有一个包裹的概率. 

( d ) 计算的期望和方差. 

( e ) 假设 n > 2,在前两个包裹都装在红货车的条件下求出随机变量的条件分布列、 
期望和方差值. 

2. 大卫在每次小测验中不及格的概率为1/4,并且各次小测验的结果是相互独立. 

( a ) 大卫在6次小测验中恰好不及格2次的概率. 

( b ) 计算大卫在不及格3次之前通过的平均测验数. 

( c ) 计算大卫恰好在第8次和第9次测验时发生第2次和第3次不及格的概率. 

( d ) 计算大卫在连续2次通过测验之前连续2次不及格的概率. 

3. 计算机系统执行两个用户提交的任务，时间被划分为几部分，每一部分以 p / = 1/6的概 
率空闲，以= 5/6的概率忙碌.在忙碌时间，来自用户 1( 或用户 2) 的任务被执行的 
概率分别为 p 1|s = 2/5( p 2 | B = 3/5), 我们假设不同时间段的事件彼此独立. 

( a ) 计算在第4个时间段第一个执行用户1的任务概率. 

( b ) 在前10个时间段中有5个空闲的条件下，计算第6个空闲时间段为第12个时间 
段的概率. 

( c ) 计算系统在执行来自用户1第5个任务时的总时间段数的期望值. 

( d ) 计算执行来自用户1的第5个任务时，计算机经历的繁忙时间段的期望数. 

( e ) 计算执行来自用户1的第5个任务时，计算机所执行的用户2的任务数的分布列、 
均值和方差. 
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4/考虑一个伯努利过程，每次试验成功概率为 p. 

( a ) 将第 r 次成功之前失败的次数（通常称作负二项分布随机变量）与一个服从帕斯卡 
分布的随机变量联系起来，并求出它的分布列. 

( b ) 求出第 r 次成功之前失败次数的期望和方差. 

( c ) 写出第 i 次失败发生在第 r 次成功之前的概率的表达式. 

解 （ a ) 设 F 表示第 r 次成功之前试验的次数，它是 r 阶帕斯卡分布随机变量，再设 
X 表示第 r 次成功之前失败的次数，所以有 X = Y-r, 因此， p x (k) =p Y (k + r), 
并且 

px(k) = -P) fe fe = 0,1,••• 

( b ) 使用上一部分的记号，我们有 

E[X] = E[Y]- r =--r= - (1 ~ p)r . 

P V 

进一步地， 

vax ( X ) = vax ( y ) = . (1 - P) r _ 

P 2 

( c ) 再次设 X 表示第 r 次成功之前失败的次数，在第 r 次成功之前发生第 i 次失败当 
且仅当 XX 因此，其概率等于 

Y^px(k) = ^ (”：？ 1 ) 〆 。-# i = l ， 2, …. 

一个替代的公式可如下推导 而得. 考虑前 r + i-1 次试验，在这些实验中失败的次 
数至少为 i 当且仅当成功的次数要少于 r . 但是，这也等价于在第 r 次成功之前发 
生第 i 次失败，这样，想要的概率也就是在前 r + i -1 次试验中，成功的次数少于 
r 的概率为 

ih - 一 —• 

5/ 伯努利过程中的随机 插入. 你的表弟很久以前就开始在玩一个视频游戏，假设他贏每一 
局的概率是 P ， 并且独立于其他游戏的结果.午夜时，你进入他的房间并且发现他输掉了 
当前的游戏. f 计算他最近一次赢和他未来将要第一次贏之间输的次数的分布列. 

解—设£表示当你进入房间时所玩游戏的序号， M 表示他贏的最近一盘游戏的序号 ， ]V 
表示即将贏的游戏序号，则随机变量 X = N-t 服从参数为 p 几何分布.由于游戏的对 
称性和独立性，随机变量 Y = t ~ M 也同样服从参数为 p 的几何分布，在他最近一次赢 
和未来将要第一次贏之间输掉游戏的次数即为 M 和 iV 之间游戏个数，上述次数 L 为 

L = N-M-1=X + Y-1. 

这样 ， i + 1就有2阶帕斯卡分布，并且 

P(^ + 1 = ^ ； ^ 2 (1 - P) k ~ 2 = (k- l)p 2 (l-p) k ~ 2 fc = 2, 3,… . 
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因此， 

PL ( i ) = P(L + 1 = i + 1) = ip 2 ( l - py - 1 , * = 1,2, 

6.* 项数为几何随机变置的独立几何随机变量 之和. 设 F + • •. + 其中随机 

变量 Xi 服从参数为 P 的几何分布，并且 7 V 服从参数为 g 的几何分布.假设随机变量 
N , X 1 , X 2 ,.-- 相互独立.在不利用矩母函数的前提下证明， y 服从参数为 pg 的几何分 
布.提示.利用分裂的伯努利过程解释题中所涉及的随机变量. 

解我们在第4章中使用矩母函数得到了这个结论，但是我们在这里要进行更加直观的 
推导.我们分别将随机变量作如下解释，我们将时刻 x 1 , x 1 + x 2 , ••-视作参数 
为 P 的伯努利过程中的到达时刻，每一个到达以概率1 - g 拒绝，以概率9接受.我们将 
N 解释为第一次接受之前到达的个数，被接受的到达过程是通过分割伯努利过程而获得 
的，因此它本身就是参数为 pg 的伯努利过程.注意到随机变量 y = X !+ X 2 + ... + X N 
就是出现到达被第一次接受的时间，因此是参数为的几何分布. 

T .* 来自伯努利过程的均匀分布随机变置的比特数 

设是取值于 {0,1} 的二值随机变量序列，设 y 表示取值于[0，1]的连续型 
随机变量，我们假设 y 为具有二进制表示为 0. XtX 2 x 3 --- 的实数，因此将 x 和 y 联 
系起来.更加具体的表达式是 ^ 

Y = f ^2~ k X k . 

k=l 

( a ) 假设来自参数为 p = 1/2的伯努利过程，证明 Y 服从均匀分布.提 示： 考虑事 
件 （i - l )/2 k < Y < i /2 k 的概率，其中 i ， 都是正整数. 

( b ) 假设 y 是均勻分布的，证明来自参数为 P = 1/2的伯努利过程. 

解 （ a ) 我 们有： 


P (^ e [0,1/2]) = P ( X 1 = o ) = I = P(y € [1/2,1]). 


进而， 

P(Y £ [0,1/4]) = P { X 1 =0, x 2 = 0) = ^. 

4 

类似的，我们考虑形如 [(i - l )/2\ i /2 k ] 的区间，其中都是正整数并且 i < 2' 
要想 Y 落在这个区间内，我们需要 x 1 , x 2 ,--- 取一些特殊的值 （ y 的二进制 

展开的小数点后的 fc 个数)，这样 

P (( i - i )/2 fc < r < i /2 fe ) = ^. 

同时注 意到： 对于[0，1]中任给 的数仏 我们有 P(F = 2/) = 0, 这是因为事件 
{Y = y } 只有当无穷多个 Xi 取特殊值时才可能发生，是一个零概率事件.因此 ， y 
的分布函数是连续型的并且满足 

P(y < i /2 k ) = 

既然每一个 [0,1] 中的 y 都可以用形如 i /2 fc 的数近似逼近，对于任意的2/ € [0, lj 
我们有 P(y ^ y ) = v , 这就证明了 y 服从均匀分布. 
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( b ) 正如 （ a ) 部分，我们发现 X U X 2 , …， X k 的每一种可能的 0-1 形式都对应着 y 的 
一个形如 [( i - l )/2 k , i /2 k ] 的特定区间，这些区间具有相同的长度，由于 y 是均匀 
分布进而具有相同的概率 l /2 k . 对于 X U X 2 ,...， X k 来说，这个特定的联合分布 
就相当于参数为 p = 1/2伯努利独立随机变量. 

6.2 节泊松过程 

8 - 从早上8点到9点这段繁忙时间里，交通事故的发生数服从一个强度为每小时5次的泊 
松分布，在早上9点到11点之间，交通事故的发生数服从一个独立的频率为每小时3次 
的泊松分布. 试求： 早上8点到11点之间发生事故总次数的分布函数. 

9- 一个体育馆有 5 个网 球场. 假设每对打球者来到体育馆打网球的时间服从均值为40分 
钟的指数分布.现有一对打球者来到体育馆，发现所有的场地都有人在打球，且前面有 it 
对人正在等待，问他们等待的期望时间是多少？ 

10. 一个渔夫在钓鱼，他钓到鱼的规律服从强度为 A = 0.6 条/小时的泊松过程.钓鱼时间至 
少为 2 个小时.如果他到 2 个小时的时候至少已经钓到一条鱼，就退出，否则，他将一直 
钓下去直到钓到一条为止. 

( a ) 求他的钓鱼时间超过（不含）两小时的概率. 

( b ) 求他钓鱼的总时间在2 〜 5小时之间的概率. 

( c ) 求他至少钓到两条鱼的概率. 

( d ) 求他钓鱼条数的期望. 

( e ) 求他在已经钓鱼4小时条件下的总钓鱼时间的期望. 

11. 顾客离开书店服从一个强度为 A 人/小时的柏松过程，每一个顾客买书的概率为 p , 并且 
独立于其他顾客. 

( a ) 求直到卖出第一本书所用时间的分布. 

( b ) 求在一个特定的小时里，没有书卖出的概率. 

( c ) 求在一个特定的小时里购书的顾客数的期望. 

12- 一个比萨点供应 n 种不同类型的比萨饼，而且在给定的时间区间内，有 if 名顾客，其中 
K 服从均值为 A 的泊松 分布. 每名顾客只买一个比萨饼，并且买哪种类型的比萨饼是随 
机的，而且与其他顾客的选择是独立的.求卖出的比萨饼种类数的平均值. 

13- 发报机 A , B 分别以频率 A a 和 A b 的泊松过程的形式向一个单独的接收器独立地发送 
消息，所有的信息都很简短，因此我们可以假设它们只占据了单个的时间点.每个信息中 
的所有字数 W 的分布列为 

1 2/6,若 w = 1， 

3/6，若 w = 2. 

1/6 ,若 w = 3, 

0,其他， 

这个分布与来自哪个过程是无关的，同时各个信息的字数 W 之间也是相互独立的. 

( a ) 求在持续时间为 i 的间隔里总共收到9条信息的概率. • 

( b ) 设 JV 表示在持续时间为 t 的间隔里接收到的总字数，求 JV 的期望. 
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(c) 求从时刻 t = 0开始，直到接收到8条来自发报机4的字数为3的信息所需时间 
的密度函数. 

( d ) 求即将接受的12条信息中恰好有8条来自发报机4的概率. 

14. 从时刻 t = 0开始，我们一次使用一个灯泡来为房屋照明，灯泡在坏了之后会立刻进行更 
换.每一个新灯泡将会从4类型和 S 类型中等概率独立地选择.对于任何类型的任何一 
个特定的灯泡，其寿命 X 都是随机变量，独立于其他灯泡的寿命，且有着如下密度 函数： 

对类型 a 灯泡： / x ㈤ = r x , 若 i > 0 ’ 

\ o , 其他. 


对类型 灯泡：/义 ㈤ 二^ ， 

\ o , 其他. 

( a ) 求灯泡直到第一次用坏时间的期望. 

( b ) 求在时刻 i 之前没有灯泡用坏的概率. 

( c ) 在时刻 f 之前没有灯泡用坏的条件下，求第一次使用的是类型4灯泡的概率. 

( d ) 求直到第一个灯泡用坏时间的方差. 

( e ) 求第12个灯泡用坏恰好是第4个类型4灯泡用坏的概率. 

( f ) 求直到第12个灯泡用坏，总共恰有4个类型 A 灯泡用坏的概率. 

( g ) 求直到第12个灯泡用坏的所用时间的密度函数或者与之相关的矩母函数. 

( h ) 求前两个类型 S 灯泡的总照明时间长于前两个类型4灯泡的总寿命的概率. 

( i ) 假设此过程在12个灯泡用坏时立刻停止，试求整个过程中类型 S 照明时间总长度 
的均值和方差. 

( j ) 在时刻 f 之前没有灯泡用坏的条件下，试求直到第一个灯泡用坏所需时间的期望. 

15. 一个服务站处理两种类型的任务 A 和 S (多个任务可以在服务站同时处理)，两类型任务 
的到达分别服从参数为每分钟= 3和 A S = 4的独立泊松过程 . A 类型任务在服务站 
停留恰好一分钟，而每一个 S 类任务在服务站停留的时间是一个取整数值的随机变量， 
其分布为几何 分布， 均值为2,并且各任务的执行时间相互独立.假定服务站很久以前已 
开业. 

( a ) 对于一个给定的3分钟区间，求到达服务站的总任务数的均值、方差和分布列. 

( b ) 我们被告知在一个10分钟的区间里恰好到达了 10个新的任务，试求其中恰好有3 
个是4类任务的概率. 

( c ) 己知在0时刻服务站是空闲的，即没有任务.试求第一个 A 类任务到达之前 B 类 
任务到达个数的分布列. 

( d ) 在 t = 0时刻恰好有2个 A 类任务在服务站执行，求出在0时刻之前最后一个4 
类任务到达时间的密度函数. 

( e ) 在时刻1，恰好有一个 B 类任务在服务站，试求直到这个 B 类任务完成所需时间的 
分布. 

16. 每天早上你开车出门时，更愿意在几个路口直接掉头行驶而不愿绕道，但是很不幸的是, 
在你居住的附近地区掉头是违规的，并且警车会以频率为 A 的泊松过程出现.假设你决 
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定一旦在 r 个时间单元里路上没有出现警车，你就会掉头一次，且设在你掉头之前看到 
了 N 辆警车. 

( a ) 求 E [ iV ]. 

( b ) 给定 iV > n ， 试求第 n _ 1辆警车和第 n 辆警车之间的间隔时间的条件期望. 

( c ) 试求在掉头之前等待时间的期望.提 示：对 iV 取条件化. 

17. 圣迭戈动物园的一只袋熊每天从洞穴走到食物盘进食，再走回去休息，并且一直重复下 
去，从洞穴走到食物盘的时间 （ 也是从食物盘走到洞穴的时间）是20秒，进食时间和休 
息时间都服从均值为30秒的指数分布.这只袋熊在来回进食的路上将会以1/3的概率 
瞬间站立一会儿（时间很短可以忽略)，至于在哪个时刻站立则是完全随机的.袋熊的行 
为，在各个阶段之间是相互独立的.一个摄影师在随机时刻到达并且可以在袋熊站立的 
时候立即拍摄照片， 试求： 摄影师完成拍摄需要等待的时间长度的期望. 

18-* 考虑一个泊松过程，已知在给定的时间间隔 [0, t ] 里只发生了一个单个到达，试证 ：到达 
时间的密度函数在区间 [0， t ] 中是均勻分布的. 

证明考虑一个区间 [ a ，6] C [0, t ]， 且长度为《 = 6 - a ， 设: T 表示第一次到达的时刻，4 
表示在 [0， f ] 中单个到达发生的事件，我们有 


P ( Te [ a , b }\ A ) = 




其中分子等于概率 P ( l , l )* P (0, t - l ), 即泊松过程在长度为 Z 的区间 [ a ，6] 里恰好发生 
一次到达的概率乘以在总长度为 i - Z 的区间 [0， a ]( J [6, i ] 里有0次到达的概率.这样， 


P(Te [ a ,6]|^) = 


~~ PUJ ) ^ 


( Xt ) e~ xt 


这就证明了 r 是服从均勻分 布的. 

I 9 / ⑷设石和&是独立的参数为 A : 和 A 2 指数随机变量，求 {^, X 2 } 最大值的期望. 
( b ) 设 y 服从参数为 Ai 的指数分布， Z 服从参数为 A 2 的2阶埃尔朗分布，假设 
独立，求 { y ; z } 最大值的期望. 

解一种直接但是繁琐的方法是首先算得感兴趣随机变量的密度函数，然后计算积分求 
得它的期望值，然而更简单的方法则可以通过将感兴趣的随机变量根据潜在的泊松过程 
进行解释而获得. 

( a ) 考虑两个独立的强度分别为 Ai 和 A 2 的泊松过程，我们将 Xi 和 X 2 分别解释为 
第一个过程和第二个过程的首次到达时间，设: T = min { X 1 , X 2 } 表示二过程合并 
以后的首次到达时间 ， S = max { X 1 , X 2 }-T 表示直到两过程都出现到达的增加时 
间.因为合并的过程是强度为 A : + A 2 的泊松过程，我们有 


E [ r ] : 


Ai + 入 2 


对于* S 有两种情况需要 考虑： 

(0 第一次到达来自于第一个过程，这种情况出现的概率是此时我们仍需 
等待过程2的一个到达，平均来说需要时间 1/ A 2 . 2 
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( ii ) 第一次到达来自于第二个过程，这种情况出现的概率是此时我们仍需 
等待过程1的一个到达，平均来说需要时间 1/ Ai . 综上，我们得到 

E [ max { X 1 , X 2 }]= x -^- + ~ .去 

= a7T^ (1 + ^ + ^ } ' 

( b ) 考虑两个独立的参数分别为 M 和 A 2 的泊松过程，我们将 Y 和 Z 分别解释为第一个 
过程的首次到达时间和第二个过程的第二次到达时间，设 T 表示二过程合并以后的 
首次到达时间.因为合并过程是频率为 A 1+ A 2 的泊松过程，我们有 Epl = 

这里有两种情况需要考虑. 

(0 在时刻 r 的到达来自第一个过程，这种情况出现的概率是此时我们仍 
需等待过程2的两个到达，这个增加时间服从参数为 A 2 的2阶埃尔朗分布， 
期望时间为 2/ A 2 . 

( ii ) 在时刻 r 的到达来自第二个过程,这种情况出现的概率是此时我们仍 
需等待的增加时间 S 是直到两个过程各出现一个到达所需的时间，这是两个 
独立指数分布随机变量的最大值.由 （ a ) 部分得到的结果，我们有 

E[s] = x[hr 2 { 1 + T 2 + ^)- 

综上，我们得到 

E[max{ y，= ^ + + 

其中 E [ s ] 的值由前述公式给出. 

20 /设 表示参数为 A 的泊松过程中第 fc 个到达的时间，试证明，对所有的2/ > 0都有 
^2 fy k { y ) = A . 

k=l 

解我们有 

± fy k ( v ) 


最后一个等式成立是因为 A 、:广 这一项是参数为 Ay 的泊松分布的随机变量取值为 
m 的概率值，因此其和必为 1. 

一个更为直观的推导过程如下.设 <5是一个很小的正数，考虑如下 事件： 
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: 第&次到达发生在 2 /和 2/ + <5 之间，这个事件发生的概率为 P ( A k ) ^ f Yk ( V )5〜. 
A : 一次到达发生在 2 /和 y + <5 之间，这个事件发生的概率为 P ( A ) « A5; 

假设 <5被取得足够小以至于在一个长度为5的区间里发生两次或更多次到达的概率可以 
被忽略.通过这种近似，事件 A lt A 2 , ■■- 不相交，它们的并集是 A 因此， 

p (^) ^ P(4 e 从， 

k=l k=l 


所需结论只要将两边的 6 消去即可. 

21.* 考虑一个包含两个参数 Ai _ 和 A 2 的独立泊松过程的试验.设 XJfc ) 和 X 2 { k ) 分别表示 
第一个过程和第二个过程中第 fc 次到达的时间， 证明： 


P(Xi(n) <X 2 (m)) 


解考虑合并的参数为 A : + A 2 的泊松过程，每一次当合并的泊松过程中出现一个到达 
时，它来自第一个过程（成功）的概率为来自第二个过程（失败）的概率为 
考虑 n + m - 1次到达之后的情况，来自过程1的到达至少有 n 次当且仅当来自^程% 
的到达数少于 m ， 这种情况的发生当且仅当第 n 次成功发生在第 m 次失败之前.这样， 
事件 { X 1 ( n ) < X 2 ( m )} 就相当于在前 n + m -1 次试验中至少成功 n 次这个事件.在 
一个具有确定试验次数的试验中，成功次数的分布列是二项分布列，我们有 


P(X 1 ( n)<X 2 ㈣ )= 茗 ( n + T _1 ) (aTT^) (aTT^). 

22. * 随机数目个独立伯努利随机变量之和 .设是独立随机变量， iV 取非负整 

数，随机变量服从参数为 P 的伯努利分布.当 iV > 0时，定义 y = Xi + ... + Xjv ， 

否则定义 Y = 0. 证明： 

( a ) 如果 iV 是参数为 m 和 p 的二项分布，则 y 是参数为 m 和的二项 分布； 

( b ) 如果 iV 是参数为 A 的泊松分布，则 Y 是参数为 Ap 的泊松分布. 

解 （ a ) 将伯努利过程 XX.X2,-.- 进行分裂，以概率 g 接收，以概率 1 - g 放弃 . 分裂 
后产生两个随机过程，第一个随机过程是分裂中接受的随机过程，第二个随机过程 
是分裂中放弃的随机过程.而: K 是第一个过程前 m 次试验成功的 次数. 因为分裂 
过程是伯努利的，参数为所以 Y 是参数为 m 和 pg 的二项分布. 

( b ) 将参数为 A 的泊松过程进行分裂，以概率 p 接收，以概率1 - p 放弃•则 y 是在 
单位时间内分裂过程到达的次数 . F 具有表达式 F + ... + 其中 iV 是原 

来的泊松过程在单位时间内到达的个数，由于每一个到达要分裂， y 刚好是分裂过 
程在单位时间内的到达次数.因为分裂过程是泊松的，参数为 P A , 所以 y 是参数为 
\ p 的泊松分布. 

23. * 个数为几何随机分布的独立指数随机变量之和.设 y = Xl + ... + 其中随机变量 A 

服从参数为 A 的指数分布，且 JV 服从参数为 p 的几何分布，假设随机变量 N , X 1 , X 2 , ■■- 

是独立的，在不使用矩母函数的前提下 证明： y 服从参数为 Ap 的指数分布.提示 ：根据 

一个分裂的泊松过程随机变量的含义来证明. 
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解我们在第4章利用矩母函数的方法得到了这个结论，但是在这里我们要得到更加直 
观的推导.我们分别将随机变量 X U N 作如下解释，将时刻 + X 2 , …视作参数 
为乂 的泊松过程中的到达时刻.现在将这个过程（我们称为原过程）进行分裂，每一个到 
达以概率1 - P 拒绝，以概率 p 接受，将接受的到达形成分裂过程的到达，分裂过程为参 
数为的泊松过程.我们将 iV 解释为第一次接受时原过程到达的个数，注意到随机变 
量 Y = A + X 2 + ... + Xw 就是原过程的到达中被第一次接受的时间，这个时间也是分 
裂过程的第一次到达时间，按泊松过程的定义，这个分裂过程的第一次到达时间的分布是 
参数为 pA 的指数分布. 

24. * 泊松过程在随机区间内的到达个数.考虑一个参数为 A 泊松过程和一个独立的参数为^ 

的指数分布随机变量 r ， 计算在时间区间 [ o , t ] 内的泊松过程到达个数的分布列. 

解让我们将 r 视作一个新的独立的参数为 p 的泊松过程第一次到达的时间，并且将 
此过程与原始过程合并.在这个合并的过程中，每一个到达来自原始过程的概率为 
且独立于其他到达.如果我们将合并过程中的每一次到达都看作是一次试验，将来 自新& 
程的到达都视作一次成功的话.注意到，直到第一次成功的到达数（试验数）具有几何分 
布的密度函数，形式 如下： 

一)=(1^)(占）， = … 

而第一次成功之前来自原始泊松过程的到达数 L 等于1，并且它的分布列为 

P 眷 —+ 1)=(士)(占)’ Z = 0，1， … 

25. * 无限服务 队列. 我们考虑一个拥有无限个服务者的排队系统，在此系统中的顾客以强度 

为 A 的泊松分过程到达.第 i 个顾客在系统中停留一段随机时间，记为 Xi . 我们假设随 
机变量 X ;独立同分布，并且独立于到达 过程. 为了简单起见，我们还假设足以给定的 
概率取 I , -- , n 中的整数值.试计算在时刻 t 时系统中的顾客数 M 的分布列. 

解我们将那些在系统中停留时间为 fc 的顾客成为 “类型 k ” 顾客.可以将整个到 
达过程看作是 n 个子泊松过程的合并，第 fc 个子过程就相应于“类型 fc ” 顾客的到达过 
程，它独立于其他过程且频率为 Apfc ， 其中糾= P(Xi = fc )， 令 iV t fc 表示在时刻*时系统 
中的“类型 fc ” 顾客数，这样就有 

k=l 

且随机变量 JV t fc 是独立的. 

我们现在计算 iV t fc 的分布列.一个“类型 fc ” 顾客在时刻 i 时在系统中当且仅当那个顾 
客是在时刻和时刻 i 之间到达的，因此 ，对 具有均值为 Xkp k 的泊松分布，由于独 
立泊松随机变量之和依然服从泊松分布，于是我们有 iV t 服从参数如下的泊松分布列，参 
数是 n 

E [7 Vi ]= A ^ fcp fc = AE [ Xi ]. 



习 题 289 


26 * 分裂的泊松过程的独立性.考虑一个泊松过程分裂，以独立的成功概率为 p 的投硬币的 
方式，将之分裂为两个过程■在例 (3.13 中，我们得出了每一个子过程都是泊松过程的结 
论，现在证明这两个子过程是独立的. 

解让我们从两个独立的强度分别为 pA 和 （1 - p ) A 的泊松过程 Pi 和: P 2 开始，将两 
过程合并得到一个强度为 A 的泊松过程然后按照如下规则将过程 p 分裂为两个子 
过程巧和 巧： 一个到达注册为子过程 V [ iV ' 2 \ 当且仅当该到达是来自子过程 Vx { V 2 ). 
很明显，新的两个子过程和巧是独立的，因为它们就等同于原始的子过程 和巧. 
然而，产生子过程:和7>纟的分裂机制与题目中的陈述看上去并不一致.我们现在就要 
证明这个新的分裂机制在统计意义上是等同于题目中的陈述的.进而将会得到，按题目 
中的陈述构造的子过程与上述子过程: p (和巧具有相同的统计性质，所以是独立的. 
现在让我们考虑上述分裂 机制. 假设过程 p 在时刻 f 出现一个到达，这将或者来自子过 
程: Pi (以概率 p )， 或者来自于子过程 P 2 ( 以概率 1- p ). 因此这个 p 过程的到达注册到 
子过程 Pi 和尸纟的概率分别为 p 和1 - p ， 与题目中描述的分裂过程一致.现在考虑过 
程: P 中的第 fc 个到达，并且令 Lfc 表示这个到达来自子过程这个事件，这与第 A ； 个 
到达注册到子过程这个事件是完全一样的.就像在例 6.14 中解释的，事件 L fc 是独 
立的.这样，对于不同的到达，它们注册到子过程 巧和巧 也是独立的.这说明将： P 分 
裂成 P (和7^的统计机制与题目中所描述的分裂机制是一 样的. 题目中所分裂的两个 
过程与： K 和的统计性质是一样的•由于和巧是相互独立的，由题目中分裂得 
到的两个子过程也是相互独立的. 

27.* 在埃尔朗到达过程中的随机插入 

考虑一个到达过程，其中到达间隔时间是独立的均值为 2/ A 的2阶埃尔朗随机变量，假 
设过程已经进行了很长一段时间.一个外在观测者于时刻 t 到达，求包含 t 的到达^隔 
区间长度的密度函数. 

解我们将题目中所说的埃尔朗到达过程视作强度为 A 的泊松过程的一部分.特别的， 
泊松过程每出现两次到达则埃尔朗过程出现一次到达，更具体地，我们可以说埃尔朗过程 
的到达相当于泊松过程中的偶数次到达•设％表示泊松过程中第 fc 次到达的时间. 
取满足 Y K ^ t < & +1 的 K ， 通过文中对泊松过程的随机插入的讨论，我们知道 Yk+1 ~ 
Vk 服从 2 阶埃尔朗分布，而这里考虑的埃尔朗过程的到达间隔区间根据 K 的偶奇分别 
具有形式[&，& + 2 ]或者 [ Yk - j . Fk + i ]. 在第一种情况中，埃尔朗过程的到达间隔时间 
具有形式 ( Yk+i - Y k ) + ( Y k+ 2 - Y k+1 ). Y k+ 2 - Yk + x 服从参数为 A 的指数分 
布，且独立于 Y k +1 ~ Y k . 事实上，一个观测者在时刻 f 到达并发现 if 是偶数，则必须 
首先等待到下一个泊松到达时刻 Y k +1 . 从那个时刻起，泊松过程重新开始，所以到下一 
个泊松到达所需时间 yx +2 - Yk + i 是独立于过去的（也就独立于 F K+1 _ &)，并且服 
从参数为 A 的指数分布.这就说明，在冗是偶数的条件下，埃尔朗过程的到达间隔时间 
区间长度 Yk +2 - Y k +1 是一个3阶埃尔朗分布 （ 因为它是一个指数随机变量和2阶埃 
尔朗随机变量之和).同理可得，在 K 是奇数的条件下，埃尔朗过程的到达间隔时间区间 
长度 Yk+i - Y k ~ i 的条件密度函数是一样的.因为对于条件下，包含时刻 t 的到达间隔 
区间长度的条件密度函数都是3阶埃尔朗分布，这样，覆盖 i 的相邻的到达区间的长度 
的无条件分布也是3阶埃尔朗分布. 
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第6章所讨论的伯努利过程和泊松过程是无记忆性的，也就是未来的状态不 
依赖于过去的 状态： 新的“成功”或“到达”不依赖于该过程过去的历史.在本章 
中，我们将考虑未来会依赖于过去的过程，并且能够在某种程度上通过过去发生的 
情况预测未来. 

我们强调的模型里，过去对未来的影响归结为对 状态的 影响，它的概率分布随 
时间变化.进一步地，我们讨论的模型中，假设变量取值的状态只取有限个值.我们 
将分析状态值序列的概率性质. 

本章中介绍的模型的应用范围是很广的.它包含了几乎全部的动力系统.该系 
统的状态随时间变化，具有不确定性.这种系统在很多领域都有应用，例如，通信、 
自动化控制、信息传输、制造业、经济以及运筹学. 


7 . 1 离散时间的马尔可夫链 


我们首先考虑 离散时间的马尔可夫链， 其中状态在确定的 离散时 间点上发生变 
化，由于时间已经离散化，通常使用变量 n 来表示时刻.在任意时刻《，用表示 
链的状态，并且假定所有可能状态组成有限集合称该集合 为状态空间. 不失一 
般性，除非另有陈述,我们用= {1，… ， m } 表示这个状态空间，其中 m 为某一个 
正整数.马尔可夫链 由转移概率阳所 描述： 即当状态是 i 时，下一个状态等于 j 的 
概率是;数学上表示为 

Pij = P (^ ri+i = j \ X n = i ), i,j G S . 

马尔可夫链的核心假设是只要时刻 n 的状态为 i ， 不论过去发生了什么，也不论链 
是如何到达状态 i 的，下一个时刻转移到状态 j 的概率就一定是转移概率数 
学上，马尔可夫链的特征称为马 尔可夫性质， 即 满足： 对于任意的时间 n ， 对任意的 
状态 j € « S ， 以及任意之前可能的状态序列* 0 , •■ - 均有 

P ( X „ +1 = j \ X n = = i n - i , … , X 0 = ?； o ) = P ( X„ + 1 = j \ X n = i )= Pij. 

所以，下一个状态 X n +1 的概率分布只依赖于前一个 状态； 

转移概率 py —定是非负的，且其和为1，即 
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[恥=1, 对所有的 i 成立. 


通常 Ph 可取正值，这样下一个状态有可能和当前状态一样.就算状态不发生 
变化,我们也认为状态发生了一次特殊的转移（“自身转 移”) • 


马尔可夫模型的性质 

• 一个马尔可夫链模型由以下特征 确定： 

(a) 状态集合= {1，… . ， m}, 

(b) 可能发生状态转移 （i, j) 的集合，即由所有阳 > 0的 （i，j) 组成， 

(C) Pij 的取值（取正值). 

• 由该模型描述的马尔可夫链是一个随机变量序列知,；^，；^，…，它们取 
值于 <S, 并且 满足： 对于任意的时间 n, 所有状态^ e «S, 以及所有之前 
可能的状态序列 , in-u 均有 

P(-^n+i = j \ X n = i , X n ^i = i n - i ,..., Xq = io) = p ^. 


马尔可夫链可以由转 移概率 矩阵所刻画，它是一个简单的二元矩阵,其第 i 行 
第 j 列的元素为 py 

Pll P12 … Plm 

P21 P22 ... P2m 


[Pml Pm2 •… Pmm 」 

同时，也可以直观地用转移概率图表示马尔可夫链，图中用节点 （nodes) 表示 
状态，连接节点的（有向）弧线 (arcs) 表示可能发生的转移•将阳的数值标记在相 
应的弧线旁这样做可使得整个模型更加直观，模型的主要性质变得显而易见. 
例 7.1 爱丽丝上一门概率课程,每周她可能进步，也可能落后.如果在给定的一 
周里，她进步了，那么她下一周进步（或落后）的概率是 0.8 ( 或 0.2); 相应地，如果 
在给定的一周里，她落后了，那么她下一周进步（或落后）的概率是 0.6 ( 或 0.4) .我 
们假设这些概率都不依赖于她之前的每周是否进步或落后，所以该问题就是一个典 
型的马尔可夫链问题（未来的状态依赖过去的方式是只依赖于当前状态来体现). 

我们令状态1和状态 2 分别表示进步和落后，那么转移概率为 

Pn = 0-8,P12 = 0.2, P21 = 0.6,p 2 2 = 0.4, 
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转移概率矩阵是 

0.8 0.2 
0.6 0.4 

该转移概率图见图 7.1. □ 



进步 0.6 落后 

图 7.1 例 7.1 中的转移概率图 


例 7.2 (蜘蛛和苍蝇）一只苍蝇在一条直线上移动,每次移动一个单位长度.每单 
位时间，它以 0.3 的概率向左移动一个单位，以 0.3 的概率向右移动一个单位，且以 
0.4 的概率停留在原地，并且它们独立于过去的移动.两只蜘蛛等在位置1和位置 
m ： 如果苍蝇到达这两个位置,它将被蜘蛛捕捉,于是过程就结束.我们将应用马尔 
可夫链模型，假设苍蝇开始位于1和 m 中间的某一个位置. 

我们令状态为1，2,…， m ， 表示苍蝇对应着的位置.于是非零转移概率为 


Pll = 1 ， Pmm = 1 ， 



Pv 


图 7.2 例 7.2 中的转移概率图和转移概率矩阵，其中 m = 4 

例7. 3 (机器出现故障、维修和更换）一台机器在给定的某天可能正常工作也可能 
出现故障.如果它正常工作，那它以概率6将在下一天出现故障，并且以概率1 - 6 
在下一天正常 工作. 如果它在该天出现故障，那就维修这台机器.则它以概率 r ■在 
下一天正常工作，并且以概率1 -7 ■在下一天仍然出现故障. 

我们利用马尔可夫链给该机器的状态建立模型，两个状态 如下： 
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状态1:机器正常 工作； 状态2:机器出现故障. 

转移概率图如图 7.3 所示.转移概率矩阵为 



正常工作 r 出现故障 

图 7.3 例 7.3 中的转移概率图 


这里的状态转移显然具有马尔可夫 性质： 第二天机器的状态只依赖于当天的 
状态.但是，就算状态是依赖于前几天的状态，也是可以利用马尔可夫链模型的 .一 
般的想法是添加新的状态来刻画过去相关的信息，下面介绍这种处理方法 • 

假设只要机器在 Z 天内都出现故障的话，那么就用一台新机器代替这台机器. 
为了利用马尔可夫链模型，我们将原来的表示机器出现故障的状态 2 ,用几个新的 
状态代替,这些状态包含了机器出现故障的天数.它们是 

状态(2,0 :机器已经出现故障了 i 天 ， i = 1,2, .. •乂 
该转移概率图如图 7.4 所示，其中 4. n 


正常工作 b 出现故障 



图 7.4 例 7.3 中第二部分的转移概率图.如果机器持续出现故障 Z = 4 天将会被换成一个 
新的能正常工作的机器 

、前面例子的第二部分说明了如果想建立马尔可夫模型，我们需要根据未来状态 
对过去的依赖性建立新的状态.我们要注意的是,添加新的状态具有一定的自由性， 
但是一般而言，数量要尽量少，这样是为了避免分析或计算的麻烦 • 

7.1.1 路径的概率 

、给定一个马尔可夫链模型，我们可以计算未来任何一个给定状态序列的概率. 
这类似于在序贯树形图中乘法规则 (the multiplication rule ) 的应用.特别地，我们 
有 


P(X 。 = *0,^1 =*!,••• ,X n = i n ) = P(X 0 = io)pi oil Pi li2 ■ ■ 
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证明该性质，注意到 

P ( Xo = io , X 1 =*!,••• , X n = i n ) 

= P ( X n = i n \ X 0 = io , …， X n -\ = * n - i ) P ( X 0 = i 。， …， X n -i = i n - i ) 

= Pi n _ii n P(->^0 = *0) • ’ . ， ^n—1 = *n—1)> 

其中最后一个等式我们利用了马尔可夫链的 性质. 我们接下来应用同样的方法来 
计算 P(Xo = i 0 , ••- = *„_!), 依次计算下去就可以得到我们所期望的形式. 

如果初始状态已知，且等于 某个屯 那么类似的推导可得 

P(-^l = *1, •■- , X n = i n \^0 = * o ) = PioilPilii ' ' ' Pin - lirv - 

图形上，一个状态序列能表示为在转移概率图中一个转移弧线序列，并且在给定初 
始状态下，该路径的概率等于每个弧线上转移概率的乘积. 

例 7.4 对于蜘蛛和苍蝇例子（例 7.2) 中，我们有 

P ( X : =2, X 2 = 2, X 3 = 3, X 4 = 4| X 0 = 2) = P22P22P23P34 = (0.4) 2 (0.3) 2 . 

我们也可以得到 

P ( X 0 = 2 , X ! = 2 , X 2 = 2 , X 3 = 3 , X 4 = 4) = P ( X 0 = 2) 如如 p 23 p 34 
= P ( X 0 = 2)(0.4) 2 (0.3) 2 . 

注意，要计算上述非条件形式的路径概率，需要知道初始状态的概率分布. □ 

7.1.2 n 步转移概率 

许多马尔可夫链问题要求计算在当前状态的条件下，未来某个时期状态的概率 
分布.这个概率称为 n 步转移概率，定义为 

rij { n ) = P ( X „ = j | X 0 = i ). 

换句话说， njin ) 表示在给定当前状态 i 的条件下， n 个时间段后的状态将是 j 的 
概率.它可以通过下面的基本迭代公式计算，该公式被称为査普曼-科尔莫戈罗夫 
方程 ( Chapman-Kolmogorov 方程，也即 C-K 方程). 

n 步转移概率的查普曼-科尔莫戈罗夫方程 

n 步转移概率利用迭代公式求得 

Uj ( n ) = ^njin - l ) pkj , 对于所有几 > l , i,j 成立， 

fc=i 

其中 

巧⑴ = Pij - 
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为证明该公式，我们只需应用如下全概率 公式： 

P(-^n = = i ) = ^ P ( X„-i = k \ X 0 = i ) P ( X n = j \ X n -i = k , X 0 = i ) 

k=l 

fc=l 

我们在这里利用了马尔可夫 性质： 只要以 X n _! = k 为条件，那么条件 i 将不 
会对下一步到达 j 的概 率?^ 产生影响.图示请见图 7.5. 


时刻0 时刻 rt-l 时刻 n 



图 7.5 C-K 方程的推导示意图 ■ n 时刻达到状态的概率等于以不同路径到达的概率 
rik ( n - l ) p kj 的总和 

我们把 rijin ) 看成一个二维矩阵第 i 行、第 j 列的元素，组成的矩阵称为 n 步 
转移概率矩阵 .® 图7. 6 和图 7 .7分别表示例 7 .1 和例 7.2 中的 n 步转移概率 rij ( n ). 
在这两个例子中，发现了许多 rij ( n ) 很有趣的极限性质.在图 7.6 中，我们发现当 
n — oo 时，每一个 rij ( n ) 都收敛于一个极限值，这个极限值不依赖于初始状态因 
此，当时间不断增大时每个状态都有一个正的“稳态 ，，概 率.进一步地，概率 ~㈨ 
在 n 很小时，依赖于初始状态 i , 但是随着时间的增大，这种依赖性将会逐渐消失. 
很多（但不是全部）随时间变化的概率模型都具有这样的性质：在充分长的时间后， 
初始条件的影响可以被忽略. 

在图7. 7 中，我们发现了在数值上的不同极限行为： rij ( n ) 依旧收敛，但是极限 
值依赖于初始状态，而且对于某特定的状态极限值可能为 0. 这里，我们有两个状 
态是“吸收”状态，也就是说一旦到达了这个状态,将永远处于这个状态.具体地说 
状态1和状态4是“吸收状态”，与实际问题相对应的意思是苍蝇被两只蜘蛛之一 
捕捉.只要给足时间，苍蝇一定会到达吸收状态，即苍蝇被蜘蛛捕捉.因此，处于非 

①对矩阵乘法运算熟悉的读者， C - K 方程可以如下 表述 ： nj ( n ) 组成的 n 步转移概率矩阵，等于由 
1) 组成的 n — 1步转移概率矩阵乘以一步转移概率矩阵.所以„步转移概率矩阵是转移概率 

矩阵的 n 次方. 
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吸收状态 2 和状态 3 的概率随时间的增长将减小为 0. 最后，究竟达到哪个吸收状 
态，其概率的大小取决于初始位置的远近. 



n O' 

n 步转移概率作为步数 n 的函数 


U B 

U 0.8 0.2 

B 0.6 0.4 


0.76 0,24 

0.72 0.28 


0.752 0.248 
0.744 0.256 


0.75040.2496 

0.74880.2512 


0.75010.2499 
0.7498 0.2502 


^(1) 巧 (2) ^(3) 化(4) ^(5) 

n 步转移概率阵的序列 


图 7.6 例 7.1 的 n 步转移概率.观察到随时间 n 的增加，~㈨收敛于不依赖于初始状态 
的极限值 




n 步转移概率阵的序列 


图 7.7 图的上部表示“蜘蛛和苍蝇”的例 7.2 中， n 步转移概率 ra(n)ffin 变化的状况.我 
们观察到这些概率收敛于一个极限值，但是极限值依赖于初始状态图的下部展示 
n 步转移概率阵随 n 的变化状况，注意，处于非吸收态2或状态3的概率和 
r i3 (n)， 随 n 的增大,其概率值趋近于0 


这些例子说明了马尔可夫链状态类型以及渐近性质的多样性.这激发了我们 
对马尔可夫链进行分类和分析的兴趣，这将是接下来三节的主题. 
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7.2 状态的分类 

在 7.1 节，从我们列举的例子中可以看到马尔可夫链的不同状态在数值上具有 
不同的性质.特别地，一些状态被访问一次后，一定还会被继续访问，而对于另外一 
些状态却不是这 样的. 本节将重点讨论这种情况的原理.特别地，我们希望给出马 
尔可夫链的状态分类，并重点分析它们被访问的长期频率. 

第一步,我们将状态的可访问性给出一些严格的定义.称状态 j 为从状态 i 可达 
的，如果对于某一个 n , n 步转移概率 nj ( n ) 是正的，也就是说,某个时段之后，从状 
态 i 出发，以一个正概率可以到达状态久另一个等价的定义是存在可能的状态序列 
, in-1, j, 开始于状态结束于 j ， 并且其中每步转移 （ i ， h ), ⑷， i 2 ) ，…， (i n _ 2 , 
in-l), (in-1, j) 都具有正概率 • 今后，我们采用直观的语 言：由 i 出发，可到达 j 表 
示这种意思•令乂⑷是所有从状态 i 可达的状态 集合. 我们定义状态 i 是常返的， 
如果对于每个从 i 出发可达的状态 j ， 相应地从 j 出发也可达 i ; 也就是说,对于所 
有属于 A ( i ) 的状态 j , 状态 i 也属于义⑴. 

当我们开始于一个常返状态我们只能访问状态 j e A ⑴，其中 i 是从 j 可 
达的•由于 i 是常返的，从未来任何一个状态，总是有一定概率可以回到状态 i 的. 
只要给足时间，这总是能发生的.重复该推导可知，如果一个常返态被访问一次，那 
么一定能被回访无限次（参见本章末关于该推导严格证明的习题). 

如果一个状态不是常返的，我们称之为非常返的.所以，如果存在一个状态 
j e A{i), 使得 i 0 A(j), 那么状态 i 是非常返的.当状态 i 每次访问后，将以正概 
率可以到达状态只要给足时间，这将会发生,但那之后，状态 i 将不再会被回访. 
所以，非常返的状态只能被回访有限次,参见本章末后的习题. 

注意，状态的非常返或常返能由转移概率图的弧线所决定[这些状态转移对 
( i , j ) 有？^ > 0], 而不是由；^的具体数值决定.图 7.8 列举了一个转移概率图，并 
且附上了状态的特性，常返的或非常返的. 



常返 非常返 常返 常返 


图 7.8 转移概率图中表示状态的分类示意图.对于状态1,唯一可达的状态就是它本身，所 
以状态1是常返态.状态1, 3, 4是可从2可达的，但是2却不能从它们可达，所以 
状态 2 是非常返 状态. 状态3, 4是相互可达的，所以它们都是常返的 

如果 i 是常返态，那么从 i 可达的状态集合 A ( i ) 组成一个 常返类 (或简单的 
类)，这意味着 A ⑷中所有的状态都是相互可达的， A ( i ) 之外的状态不是从这些状 
态可达的.用数学形式来表述就是，对于一个常返态对任意的 j •属于 A ⑷，我们 
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有 A ( i ) = A ( j ), 这个结论由常返的定义可得.例如，在图 7.8 中，状态3, 4形成一 
个常返类，而状态1自身形成一个类. 

可以看到，从任何一个非常返状态出发，至少有一个常返状态是从它可达的. 
这是一个直观的事实，证明将留作本章末的习题.由此可以知道，对于一个马尔可 
夫链至少存在一个常返状态，从而也就至少存在一个常返类.所以，我们可以得到 
以下结论. 


马尔可夫链的分解 

• 一个马尔可夫链的状态集合可以分解成一个或多个常返类，加上可能的一 
些非常返状态. 

• 一个常返态从它所属的类里任何一个状态出发是可达的，但从其他类里的 
常返状态出发是不可达的. 

• 从任何一个常返状态出发都不可到达非常返状态. 

• 从一个非常返状态出发，至少有一个或更多的常返态是可达的. 


图 7.9 提供了一些马尔可夫链分解的例子.状态的分解为研究马尔可夫链提供 
了一种强有力的方法，同时对状态转移也提供了直观的解释.特别地,我们可以看 
到如下现象. 

( a ) 一旦一个状态进入（或开始于）一个常返类，它将停留在这个 类里； 因为在 
这个类里的所有状态都是相互可达的，类里所有状态将被无限次的回访. 

( b ) 如果初始状态是非常返的，那么状态转移的路径开始部分包含非常返状态， 
最后部分一定是由来自同一个类的常返状态组成的. 

为了理解马尔可夫链长期的行为，分析由单个常返类组成的链是很重要的.为 
了理解它短期的行为，分析如何从一个给定的非常返状态出发，进入一个特定的常 
返类的机理也是很重要的.这两个问题,长期行为和短期行为，将分别是 7.3 节和 
7.4 节的研究重点. 

周期 


常返类还有一个重要的性质，即一个状态被回访时间出现或者不出现周期性. 
特别地，称一个常返类是有周期的，如果它的状态能被分成 d > 1个相互不相交的 
子集 S u ...， S d , 且满足所有的转移都是从一个这样的子集到下 一个； 参见图 7.10 
所示.更加精确地说,就是 


如果 i e 馬 ，跔 > 0, 


(j € S k +1, 当 fc = 1， •. •，d — 1， 
I 3 e S 1: 当 k = d . 


如果一个常返类不具有周期，我们称之为非周期的. 
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单个常返类 



一个非常返状态 (3) 和一个常返状态 (1 和 2) 



两个非常返状态 (2 和 3) 和两个常返类 
(1 是一个常返类，4和5组成另一个常返类) 


图 7.9 — 些马尔可夫链的状态分解为常返类和非常返状态的例子示意图 



所以，在一个有周期的常返类中，我们从某个子集的一个状态出发，依次通过 
每一个子集，经过 d 步后，又回到了原来的子集.举例说明，图 7.9 中的第二个链， 
常返类（状态1和状态 2) 是有周期的，由状态1出发，经过状态2,又回到状态1; 
同样地，图 7.9 中的第三个链，由状态4和状态5组成的常返类也是有周期的.此 
外，该图中所有其他的常返类都是非周期的. 

注意，给定一个有周期的常返类，对于链中任意一个正时刻 n ， 以及类中的状 
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态 i , 则必存在一个或多个状态 j , 使得 rij ( n ) = Q . 其原因是从状态 i 出发，时刻 n 
只可能到达其中一个集合所以，要证明一个给定的常返类是非周期的，只 
需验证是否存在一个特定的时刻 n > 1和特定的状态 i e 使得经过 n 步以后， 
可以到达 i ? 中所有的状态，也就是说，对于所有的 j eR 有 〜⑻ > 0. 举例说，图 
7.9 中的第一个链.从状态1开始，每一个状态都可能在时刻 n = 3时到达，所以该 
链中唯一的一个常返链是非周期的. 


相反的陈述也是正确的（在此不给予证 明)： 如果一个常返类是非周期的，那 
么必存在时刻71，使得对于任何属于丑的任意 i 和 j ， 均有巧(71) > 0;参见本章末 
的习题. 


周期 

考虑一个常返类凡 

• 如果一类中的状态能被分成 d > 1个互不相交的子集5 1; ••- , S d , 满足所 
有的转移都是从子集&到 5 fc +1 的（或到 负 ，当 A : = d 时)，则称该类为周 

期类. 

• 一类 R 称为非周 期的， 当且仅当存在时刻 n ， 使得对于任何 e 丑，满足 

rij(n) > 0 . 


7.3 稳态性质 


在马尔可夫链模型中，我们常常感兴趣的是它长期的状态性质，也就是说，当 
时刻 n 非常大时， n 步转移概率 nj ( n ) 的渐近行为.我们在图 7.6 看到 nj ( n ) 收敛 
到一个固定的值,并独立于初始状态的选取.我们希望了解这种收敛性质在多大程 
度上是典型的性质. 

如果有两个或者更多个常返状态类，很显然， rij ( n ) 的极限值一定依赖于初始 
状态（未来访问 j 的概率依赖于状态 j 是否和初始状态 i 处于相同的类).所以，我 
们将链限定于只有一个常返类，加上一些可能存在的非常返状态.对于单个常返类 
的情况研究清楚以后，多个常返类的情况也就变得简单明白了.因为我们知道 ，一 
旦状态进入一个特定的常返类,它将一直处于这个类中.所以，可以利用单一类链 
的渐近行为去理解具有多个常返类的马尔可夫链的渐近行为. 

就算是一个只有单个常返类的链, r i5 { n ) 也可能是不收敛的.为了验证这点，我 
们假设一个常返类具有两个状态,状态1和状态2,满足状态1只能到达状态2,而 
状态2也只能到达状态 l ( pi 2 = P 2 i = l ). 那么，从某一个状态开始，任意偶数次转 
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移后将回到原来的状态，任意奇数次转移之后达到对方的状态.也就是， 

,、\ 1, n 是偶数， 

nj ( n ) = < 

[ 0, n 是奇数， 

这种现象说明该常返态是周期的，并且 nj ( n ) 是摆动的. 

排除我们前面讨论的两种情况（多个常返类和有周期的类）外，现在我们可以 
断言,对于每一个状态），处于状态 j 的概率 rij ( n ) 趋近于一个独立于初始状态 i 
的极限值，这个极限值记为巧，有如下 表示： 


7 r , « P ( X „= j ), 当 n 很大时， 

并且称之为状态 的稳态概率. 接下来是一个重要 定理. 它的证明很复杂，将结合 
本章末问题的几个其他证明列出. 

稳态收敛定理 

考虑一个非周期的，单个常返类的马尔可夫链.那么，状态 J •和它对应的稳态 
概率巧具有如下性质. 

( a ) 对于每个 j ， 我们有： 

Jim Tij{n) = iTj, 

( b ) tt ,- 是下面方程组的唯 一解： 

i=t 

k=i 

( c ) 另外有 ： 

^ = 0, 对于所有的非常返状态丄 

^ > 0, 对于所有的常返态 


稳态概率 D 的总和为1,在状态空间中形成了概率分布，通常称之为链 的平稳 
分布 (stationary distribution ). 称之为平稳的原因是，如果初始状态是根据该分布 
选择的,也就是说，如果 


对于所有的 i . 


J = 1, ••- ,m, 


p (^o=j) = nj, 


j = 1,… ,m, 
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那么，利用全概率公式，我们有 

P(Xi = j) = ^P(X 0 = k)p k j = TTkPkj = TTj, 
fc=l fc=l 

其中上式最后一个等号利用的是稳态收敛定理的第 （ b ) 部分.类似地，对于所有的 
n 和 j 均有 P ( X „ = j ) = TTj . 所以，如果初始状态根据平稳分布选择，那么未来任 
何时候的状态都具有相同的分布. 

方程组 m 

TTj = ^2 n kPkj , j = 1, ■•- , m , 

k=l 

称之为 平衡方程组. 它们是上述定理第 （ a ) 部分和査普曼-科尔莫戈罗夫方程组的 
简单结合的结果.实际上，一旦 rij ( n ) 收敛于某一个巧，那么我们考虑方程组， 

r ij( n ) = 勿’ ( n ~~ 

fc=l 

两边对 71400 取极限,得到平衡方程组又结合归一化方程 

史 M = 1， 

k=l 

平衡方程组能够解出巧.下面举一些例子来说明如何求解. 

例 7.5 考虑两个状态的马尔可夫链，它们的转移概率是 


Pn = 0 . 8 , p\2 = 0 . 2 , 

P 21 = 0.6， P 22 — 0.4. 

(这和例 7.1 和图 7.1 介绍的链是相同的 .） 平衡方程组为 


或者 


TTi = 7TiPu + 7T2P21) 冗2 = ^lPl2 + ^2^22； 

7Ti = 0.8 - 7Ti + 0.6 - 7T 2 , 丌2 = 0_2 . 7Ti + 0.4 .7T2. 


注意到上面的两个方程是相互依赖的，因为它们共同等价于 


7Ti = 3冗2. 

①运用线性代数中一个重要的有名的定理（称为 Perron - Frobenius 定理)，可以证明任意马尔可夫链 
的平衡方程组总有非负解.一个非周期的只有单个常返类的马氏链，综合归一化方程，平衡方程组的 
解是唯一的，也就是 n 步转移概率 n , ( n ) 的极限. 
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这是一个一般结论，实际上可以证明平衡方程组内的任何方程都可以利用剩下的式 
子推导出来.但是，我们知道巧满足归一化方程 

丌1 +丌2 = 1， 

它是平衡方程组的一个补充，从而能唯一地得到巧.确切地,将方程町= 37 T 2 代入 
方程 7T1 + 77 2 = 1, 可以得到 3772 + 7T 2 = 1, 从而 

7 T 2 = 0.25, 

再将它代入町+仰=1，得到 

7 ri = 0.75. 

这个结果和我们前面通过迭代査普曼-科尔莫戈罗夫方程组得到的结果一致(见图 
7.6). □ 

例 7.6 —位健忘的教授有两把雨伞，用于上下班往返于家和学校之间.如果下雨 

且在她所处位置有一把雨伞可用，那么她就会带上它.如果没有下雨，她总是忘记 
带雨伞.假设每次她出门下雨的概率是 p ， 且独立于其他时候.请问她在路上被淋 
湿的稳态概率是什么？ 

我们利用马尔可夫链建立模型,假设以下状态： 

状态在她所在地有 i 把雨伞可用， i = 0 ， l ， 2. 

图 7.11 表示对应的转移概率图，与这个模型相应的转移概率矩阵为① 


0 0 1 

0 1 — p p 

1 —p p 0 



1 - p P 

门口没有伞 门口有两把伞 门口有一把伞 

图 7.11 例 7.6 中的转移概率图 


①矩阵中第一行表示 f 出门时门口没有伞，她到达目的地的门口必定有两把伞，因此由 P0 , 0 =0，?^ = 
O . P 0.2 = 1,第二行表示她出门时门口只有一把伞，她以概率 p 将这把伞带走，以概^为 （1 — P ) 将 
伞留在原地，这样目的地门口的状态为1或2,相应的转移概率如矩阵的第二行所示.总之，她所在地 
门口的伞的把数形成一个马尔可夫链.——译者注 
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这个马尔可夫链具有单个的常返类，且是非周期的（假设0 < p < 1)，所以可 
以利用稳态收敛定理.其平衡方程组是 

7 T 0 = (1 - p )7 T 2, 7 Tl = (1 — p )7 Tl + p 7 T 2 , 7 r 2 = 7 To + pTTi ， 

由第二个等式，我们知道 Tn = 7 T 2 , 再结合第一个等式 TTQ = (1 - P )7 T 2 和归一化方程 

7 TO + 7 Ti + 7 T 2 = 1,得到 

1 — P 1 1 

根据稳态收敛定理，教授发现自己所在地方没有雨伞的稳态概率是耶.那么教授 
将被淋湿的概 率是仰 乘上下雨的概率 p . □ 

例 7.7 —个迷信的教授在一个具有 m 扇门的环形建筑里面工作，™是奇数.他 
绝不连续两次打开同一扇门.相反，他以概率 K 或概率 1- P ) 以顺时针方向（或相 
应地以逆时针方向）打开他上一次打开的相邻门.请问选定一扇门将在未来一天被 
用到的概率？ 


1号门 


2号门 


5号门 



3号门 


4号门 


图 7.12 例 7.7 中的转移概率图， m = 5对应的情况示意图.假设0 < P < 1，不难发现，选 
定一个初始状态 i, 每一个状态 j 都可以在5步能达到，所以该链是非周期的 


我们利用马尔可夫模型，有以下 m 个 状态： 

状态 i :教授打开的是第 i 扇门 ， i = 1 ， •••，?《• 
转移概率图形如图 7.12 所示（图中 m = 5). 转移概率矩阵为 

0 p 00 … 0 1 — p 

-P 0 p 0 ... 0 0 

0 1 — p 0 p ... 0 0 



7.3 稳态性质 305 


假设0 < p < 1,该链有一个非周期的单个常返类（验证非周期性，我们选定一 
个初始状态 i ， 每一个状态 j ' 都可以在确定的 m 步能到达,于是上节末提出的非周 
期性判定规则能满足).平衡方程组为 

丌1 = (1 —P)7T2 +P 丌 m， 

7Tj =p7Tj_l + (1 - p)7T i+1 , i = 2, …， 771— 1， 
n m = (l- p)tti + pTTm-1 ， 

注意，由其对称性,这些方程组很好解，所有的门都具有一样的稳态概率.所以解为 

j = 1,2, ■ • • ,m. 

确切地，我可以看到巧是满足平衡方程组和归一化方程的，所以它们一定就是我 
们所求的稳态概率（利用稳态收敛定理的唯一性). 

注意，如果 p = 0或者 p = 1,链也是只有单个的常返类，但是是有周期的.在 
这种情况下， n 步转移概率 rij ( n ) 不会收敛于某一个极限值，因为门将会被按照环 
形顺序使用.类似地，如果 m 是偶数，链的常返类也是有周期的，因为状态将可 
以分成两个子集，偶数和奇数号码的状态，并且满足从一个子集只能到达下一个子 


7.3.1 长期频率解释 

概率通常被解释为在无限次独立重复试验的事件发生的对应频率.尽管缺乏独 
立重复试验的那种独立性，马尔可夫链的稳态概率也具有这样类似的解释. 

例如，考虑一个与机器相关的马尔可 夫链. 每天工作结束的时候，机器有两种 
状态，正常工作或出现 故障. 每次出现故障时，就立即花1美元进行维修.我们应 
该如何建立模型,计算长期的每天平均修理费？ 一种可能是将它看成未来任意一天 
的修理费的均值，这就需要计算故障状态的稳态概率.另一种方法是：首先可以计 
算 n 天内的总期望花费■当 n 很大时，再除以 n . 直觉告诉我们，两种计算方法将 
会得到一样的结果，这样的直觉是有理论根据的.下面是关于稳态概率的解释（证 
明将在本章末给出). 


稳态概率的期望频率解释 

对于一个非周期的具有单个常返类的马尔可夫链，状态的稳态概率 7 T , ■满足 
^ = lim 

n—>oo n 

其中表示从状态 i 出发，在 n 次转移中到达状态 j 的总次数的期望值. 
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基于上述解释， D 表示状态是 j 的长期的期望频率.每次状态被访问了，则 
下一步将转移到状态 fc 的概率是巧 fc . 所以，我们得到结论 n jPjk 可以看作从 j 转 
移到 fc 的长期转移概率 .® 


特定转移的期望频率 

考虑一个马尔可夫链的 n 次转移，该链是从给定初始状态出发的、非周期的， 
且具有单个常返类.令 q jk ( n ) 为在时间 n 内，从状态 j 到状态 fc 的转移期望次 
数，那么，无论初始状态是什么，均有 

lim gjfc — = TTjPjk- 

n—oo n 


给出％和 7 T jPjk 的频率解释以后，平衡方程组 

^3 = Yh nkPk ^ 

k=l 

就具有直观的意义.访问的期望频率巧等于能到达 j 的转移的期望频率 n kPkj 
的总和，也就是 

= 〉: ^kPkj ； 
k=l 

参见图 7.13. 



图 7.13 频率意义下，对平衡方程组的解释.在次数很大的转移中，我们认为 7 T kPkj 表示状态 
从 fc 到 j 的期望频率（它也可以应用于: ；' 到本身的转移，对应频率为 iv jPjj ). 这样 
的转移的期望频率总和就是访问 j 的期望频率 D 


①事实上，下面更强的结论也是成立的.对马尔可夫链进行一个概率试验，产生一个马尔可夫链的无限 
长的轨道,观测这个轨道的到达状态的长期频率就是发生从状态 j 转移到状态 fc 的长期频率 
正好是 n jpjk . 尽管轨道是随机的，这些等式仍然概率1地成立. 



7.3.2 生灭过程 
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一个 生灭过 程也是马尔可夫链.它的状态是线性排列的，具体地说，生灭过程 
的状态空间为{0，1,... ， m }， 且转移只发生在相邻状态之间，或者状态保持不变.实 
际背景的例子非常多，尤其是排队论.图 7.14 表示了一个生灭过程的一般结构，也 
介绍了转移概率的一般情况.特别地， 

bi = P ( X n+ i = * + l \ X n = i ), (在状态 i “生”的概率)， 
di = P ( X n+1 = i - 1| X „ = i ), (在状态 i “灭”的概率 )_ 



图 7.14 生灭过程的转移概率图 


对于一个生灭过程，平衡方程组能够充分地化简.我们重点考察相邻状态， i 和 
i + 1. 在马尔可夫链的任何轨迹中，从 i 到 i + 1的转移一定会跟着一个从 i + 1到 
i 的转移（虽然不总是从 i + 1马上转到 i ), 后面这个转移会在另一个 i 到 i + 1的 
转移发生 之前. 换言之,在马尔可夫链的任何轨迹中，由 i 到 i + 1 的转移和由 i + 1 
到 < 的转移一定是交替出 现的. 所以，从 i 到 i + 1的转移的期望频率 ttA , —定等 
于从 i + 1到 i 的转移的期望频率 n i +1 d i+1 . 这就推出了一 个局部 平衡方程组① 


冗 ih = 7Ti+ic^ + i, i = 0,1，… ，m — 1_ 


利用这个局部平衡方程组，可以得到 


bobi - - - bi-i 
^=耶 ckdy.ck 


i = 1，… ， m ， 


由此，再利用归一化方程 = 稳态概率〜就容易算出了. 

例7. 8 (具有反射壁的随机游动）一个人在直线上行走,每一个时刻，他向右走的 
概率是向左走的概率是1 — fc . 该人开始于位置1，2, ...， m 中的任一个，但是如 
果他到达位置 0( 或者 m + 1)，他将自动返回到位置 1( 或者对应的位置 m ). 这等价 
于，我们假设当该人到达位置 1( 或者 m ) 的时候，下一步将分别以概率1 - &(或 6) 

①不运用频率解释法，也可以如下正式推导.状态0的平衡方程是 7T 0 (1 - 6 0 ) +町办= 7T0, 所以可 
以推导出第一个局部平衡方程： 7T0&0 =町办. 

状态1的平衡方程是 7To6 0 + 71^(1 - 61 - dl) + TT 2 d 2 = 7T1. 运用前一个状态的局部平衡方程 
TTO&O = ndi， 可得 Tri^+TriU-h-t^+Tr 2 ^ =7T1. 化简可得 TTlh =7 V 2 d 2 . 继续推导下去，就可 
以得到所有状态的局部平衡方程组. 
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停留在原处，以概率6向右走一步（或以概率1 -6 向左走一步)_我们利用马尔可 
夫链建立模型，其状态为1，2,…， m . 转移概率图如图 7 .1 5 所示_ 



图 7.15 例 7.8 随机游动例子的转移概率图 
局部平衡方程组为 

nib = 7Ti+i(l — 6), ^ = 1, •■- ,m — 1. 

所以， 7T i+1 = pTTi, 其中 

b 

于是我们用 & 表示所有的％,有 

7ti = p 卜 1 丌 1 ， z = 1, •■- ,m. 

再利用归一化方程1 = & +…+ 7 T m , 我们得到 

l = 7 T 1 (l + p +---+ p m - 1 ), 

于是得到 

p^ 1 . 

TTi = - t. i = 1, • • • . Ul. 

1 1 + / 9 +---+ P ™- 1 ,, 

注意，如果 p = 1( 向左和向右的概率一样)，那么对于所有 i 有％ = 1/ m . □ 

例 7.9 (排队论）在通信网络中，信号包到来后，被存放在缓冲器中然后传输.缓 
冲器的储存容量是 m : 如果已经有 m 个信号包已经存在缓冲器中，那么新到的信 
号就自动丢失了.我们将时间切分成很小的部分，并且假设每个时间段,最多有一 
个事件发生（一个新的信号包的到达或将已经存在一个信号包传送出去)，改变系 
统中信号的数量.特别地，我们假设每个时间段，只有以下事件之一发生. 

⑷一个新的信号包的到达,发生概率是6 > 0产 

( b ) 如果至少存在一个信号包在系统中，则传送出去一个信号包，发生的概率 
是 d > 0, 否则概率为 0; 


①如果缓冲器中信号包的个数为 m , 则事件发生的概率为 0. —译者注 
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( c ) 没有新信号到达，也没有将已经存在的信号包传送出去（没有完成传送任 
务)，如果当时在缓冲器中存在至少一个信号包，则事件发生的概率为1 - & - d ; 如 
果当时在缓冲器中没有信号包，则事件发生的概率为1 - 

我们建立一个马尔可夫链，其状态空间为0，1，…， m ， 这些状态表示缓冲器中 
信号包的 个数. 转移概率图如图 7 M 6 所示.转移概率图能够更加明晰地表达这种 
状态的转移关系. 



图 7.16 例 7.9 的转移概率图 

局部平衡方程组为 


冗 ib = 7r i+1 d, i = 0,1，_ .. ， m - 1. 


我们定义 

b 

p = _ d ， 

可以得到 ％ +1 = pTTi ， 从而推出 

71\ = p l 7To, S = 0, 1 ， • . ■ , m. 

通过应用归一化方程 1 = 7 TQ + 巧 + … + 7 T m ， 我们可以得到 

1 = 7T 0 (1 +/>+ … +p m )， 


以及 



再利用等式= pV 0 , 稳态概率为 


若1’ 
若 P = 1. 




若 

i = 0,1 ， … ， m. 

若/>=1， 


当缓冲器容量 m 很大，实际中可以认为无穷的时候，看看会发生什么很有趣 
的事情.我们分两种情况. 
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⑷假设& < d ，或者 P < 1- 在这种情况下,新信号到达的概率小于缓冲器中信 
号离开的概率.这就避免了缓冲器中信号数量的增加，并且稳态概率 〜随着 i 增大 
而减少,其分布列为截尾型的几何分布.注意到当 m — ⑺,有1 _ — 1以及 

% p ), 对于所有的 i . 

我们可以把它看成是具有无限个缓冲器的系统的稳态概率.[验证时，注意到[=0 〆 

(1 - p) = 1.] 

( b ) 假设& > d ，或者 p > 1. 这种情况下，新信号到达的可能性大于缓冲器中 
信号离开的可能性.缓冲器中信号的数量趋近于增加，并且稳态概率〜随着 i 增 
大而增加.由于我们考虑的缓冲器具有很大的容量任何状态 i 的稳态概率都是 
逐渐趋近于0的： 

7 T * -» 0,对于所有的 i 

如果我们考虑系统具有无限个缓冲器，我们将得到一个具有可数无穷多个状态的马 
尔可夫链.尽管我们不讨论这样的链，但是根据前面的计算,我们知道每一个状态 
都具有零的稳态概率，每个状态将是非常 返的. 缓冲器中的信号的个数将增加到无 
穷多个,并且任何特别的状态都只能被访问有限 次数. □ 

前面的分析对具有可数无穷多个状态的马尔可夫链的性质有了一个大致的了 
解.在这种马尔可夫链中，即使是只有一个非周期的常返类，链的状态也不会是稳 
态，也不会有平稳概率分布存在. • 

7.4 吸收概率和吸收的期望时间 

在本节中，我们将学习马尔可夫链的短期行为.首先，考虑开始于非常返状态 
的情形，我们感兴趣的是首次访问常返态的分布以及对应的到达时间的分布 • 

当我们讨论这个问题的时候，马尔可夫链的后续行为（到达常返态之后）是不 
重要的.所以我们重点讨论每一个常返态 fc 为吸收的，也就是 

Pkk = 1; Pkj = 0对于所有的 j 笋 fc . 

如果只有唯一的一个吸收态 fc , 那么它的稳态概率为 1( 因为其他所有的状态都是非 
常返的，并且其稳态概率都是 0). 从任何一个初始的非常返状态出发，将以概率1 
达到这个吸收状态.如果有多个吸收状态，那么经过若干步的转移，这个状态最后 
终将到达某个吸收态.但是具体到达哪一个吸收态，这是随机的，并且到达各吸收 
态的概率分布依赖于初始状态.现在我们固定一个吸收态，设为 s ，令叫表示链从 
状态 i 开始，最终达到 s 的 概率： 


a i = P ( X „ 最终等于吸收状态 s | X 0 = i ). 
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这个概率称为吸收概率.该吸收概率可以通过解以下线性方程组得到. 


吸收概率方程组 

考虑一个马尔可夫链，它的每一个状态或者是非常返的，或者是吸收的，并固 
定一个吸收状态 s . 那么从状态 i 开始，最终达到 s 的概率叫是下列方程组的唯 
一解： 


ai = 0, 对于所有吸收状态 

a i = 对于所有非常返状态 


由吸收概率的定义，很明显得到方程组 a s = 1以及对于所有吸收状态 i # s , 
叫= 0. 为了证明剩下的方程组，我们接下来讨论.考虑一个非常返状态令 A 表 
示状态 s 最终被达到的事件.我们有 

cti = P ( A\Xo = i ) 

m 

= 5] p ( A|Xo = i , x 1 = i ) p ( X ! = j\Xo = i ) (全概率公式） 
j=l 

= ^>04^ = j) Pij (马尔可夫性质） 
j = l 

= ^2 a jPij . 

关于吸收概率方程组的解的唯一性需要单独的证明，将在本章末的习题中给出. 

接下来的例子将阐述我们如何利用前面所述的方法计算进入给定常返态的概 
率（并非仅仅是进入给定吸收状态). 

例 7.10 考虑如图 7.17 a 所示的马尔可夫链.注意这里具有两个常返类，分别是 
{1} 和 {4,5}. 我们计算开始于一个非常返状态，最终进入常返类 {4,5} 的概率.为 
了解决这个问题，考虑常返类 {4,5} 内的可能转移不是实质性的.所以我们将该常 
返类的状态整合，把它们看成单个的吸收状态（称之为状态6)，参见图 7.17 b . 现在 
只需计算新链中，最终进入状态6的 概率. 

从非常返状态2和3,最终达到6的概率满足以下方 程组： 
a 2 = 0.2ai + 0.3a2 + 0.4d3 + O.lae, 

= 0.2 a 2 + 0.8 a 6 . 

利用事实 ai = 0和 a 6 = 1，我们得到 
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图 7.17 ( a ) 例 7.10 的转移概 率图； （ b ) 将状态 4 , 5 整合成吸收状态 6 的新链 


a2 = 0.3^2 + 0.4ot3 + 0.1, 
as = 0.2a2 + 0.8. 


这是关于未知数 <x 2 和 a 3 的二元一次方 程组. 求解得到 a 2 = 21/31 及 a 3 = 29/31. 

□ 

例 7.11 (赌徒的破产问题）一个赌徒每局赌博以概率 P 贏1美元，同时以概率 
1 - p 输掉1美元.假设不同赌局之间是相互独 立的. 赌徒会一直赌博直到资金到 
达某个目标总数 m 时，或者输掉全部的钱.请问最终资金能到达目标 m 或者输掉 
他全部资金的概率是多少？ 

我们建立马尔可夫链，参见图 7.18, 它的状态 i 表示每次赌局开始时，赌徒的 
资金.状态 i = 0和 i = m 分别表示最终输和赢. 

除了最终输和贏的状态是吸收的,其余状态都是非常返的.所以，问题转变成 
了对应计算每个吸收态的吸收概率.当然，这些吸收概率会依赖于初始状态 i 的选 
取. 



图 7.18 赌徒的破产例子（例 7.11) 的转移概率图，这里 m = 4 


我们令 S = m , 且吸收概率 ai 表示从状态 i 出发,最终贏的概率.那么这些概 
率满足 


ao = 0, 

= ~p)ai-i +pa i+ i, i = 1,••- ,m- 1, 



7.4 吸收概率和吸收的期望时间 313 


这些方程组可以通过很多种方法来求解.下面我们利用一种比较简单的方法解该 
方程组. 

对于每个 ai ， 我们有 

(1 -p){ai - ai-i) = p(a i+ i - %)， i = !,■■■ ,m — 1. 


那么，令 

= —叫， 

i = 0, ...，m — 1， 

以及 

P 二 

_ 1-p 
- ， 

P 

从而方程组转变成 

^ = pSi-i, 

i = 1,... ,m — 1, 

由此,可得 

Si = p l So, 

« = !,••• ,m _ 1. 

于是结合等式5 0 + 5 1 + 

… + ^m-i = a m — ao = 1, 可得 


(i+/?+••• 

_ + = 1, 

也就是 




do = -- 7. 

l + p + ... + p m-l 

因为 a 0 = 0以及 a i+1 =ai + Si , 从一个状态 i 出发，最终贏的概率叫是 

= <^0 + <^1 + • • 1 + 

= (l + p + … + p i_1 )(5 0 
_ 1 + P + ... + 〆 1 

1 + p + ... + /9 m - 1 ' 


化简得 



若 p 7^ 1， 
若 p = 1. 


结果揭示了，如果 P >1, 也就是 P < 1/2,对于赌徒每次贏的概率相对小，那么 
最终贏的概率，不管初始资金是多少，随 m — oo 趋近于0,这就表明，如果我们在 
不理想的概率下（每次贏的概率小于输的概率)，想贏取更大的资金，最终完全破产 
是几乎一定的. 口 
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7.4.1 平均吸收时间 

现在我们转而关注从一个特定的非常返状态出发，直到到达一个常返状态（我 
们称为“吸收”）的平均步数.对于任何一个我们定义 

~ = E 丨从状态 i 开始，直到达到吸收态所需的步数] 

= E [ min{n ^ 0|_ X „ 常返态} ■ I^Xo = i ]. 

注意，如果 i 本身为常返态，那么根据定义叫= 0. 

我们利用全期望定理得到关于叫的方程组.从一个非常返状态 i 出发直到进 
入吸收状态所需的时间的期望值等于1加上从下一个状态出发直到进入吸收状 
态所需的时间的期望值的加权平均，而权值刚好是由 i 到下一个状态 j 的概率 Po . 
于是我们得到一个线性方程组，可以证明，这个线性方程组具有唯一的解（参见本 
章末的习题 33). 


平均吸收时间方程组 

平均吸收时间 / il , •• - ,^ m 是下列方程组的唯一解 

Mi = 0, 对于所有的常返状态 i , 

(M = l + 对于所有的非常返状态 i . 


例 7.12 (蜘蛛和苍蝇）考虑例 7.2. 中的蜘蛛和苍姆的模型.它对应图 7.19 中的 
马尔可夫链.状态对应苍蝇可能的位置，吸收状态1和状态 m 表示蜘蛛对苍蝇的 
捕捉. 

接下来我们计算苍蝇被捕捉的平均步数.我们有 

A*1 = Mm = 0, 

以及 

Hi = 1 + 0.3/ ii_i + 0.4 /ij + 0.3/ x i + i , 当< = 2 , … ，m — 1. 

解这个方程组有很多方法，例如通过依次迭代法.现在我们详细阐述，令 m = 4,方 
程组可以简化为 


"2 = 1 + 0.4"2 + 0.3"3， M 3 = 1 + 0.3^2 + 0.4"3. 

第一个方程得出内= (1/0.6) + (1/2) M 3 , 我们将其代入第二个方程可解得/ x 3 _ 我们 
得到抝=10/3,再次代入第一个方程得/^2 = 10/3. 
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图 7.19 例 7.12 中的转移概率图 


□ 

7.4.2 平均首访时间及回访时间 

用于计算平均吸收时间的想法也可以用于计算开始于任何其他状态，到达某特 
定常返状态的平均时间.为了简化，我们只考虑只有单个常返类的马尔可夫链.我 
们着眼于一个特定的常返态 s , 并令 k 表示从状态 i 到状态 s 的平均首访时间，定 
义为 

t = E [从状态 i 开始，首次达到状态 S 的转移步数] 

= E [ min{n ^ 0| X „ = s }| X 0 = i \. 

到达状态 S 之后的转移和计算平均首访时间是没有关系的.所以，我们将特殊 
状态 s 看成一个吸收状态（设定 p ss = 1，~ = 0对于所有的 j # s .：), 新的马尔可夫 
链本质上是和原来一致的.通过这个转化，除了 S 外的所有状态都是非常返的了. 
于是我们利用本节前面给出的公式，计算时间~相当于计算从状态 i 出发被吸收 
的平均步数.我们有 

ti = l + Y ^ Pijtj , 对于所有的 

j=l 

t 3 =0. 

该线性方程组能用于解未知的 M 并且只有唯一的解（参见本章末的习题). 

上述方程组给出了从任何其他状态开始，到达特殊状态 s 的平均时间.我们也 
可以计算到达特殊状态 s 的平均回访时间，定义为 

t ： = E [从状态 S 开始，首次回到状态 S 的转移步数] 

= E [ min{n 彡 1| X „ = s }| X 0 = s ], 

只要我们具有首次访问时间 ii , 就可以通过以下方程组得到匕 


= 1 + 'y^Psjtj. 
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为了验证该等式，我们说从状态 s 开始，回到状态 s 的平均时间等于1加上从 
下一个状态出发到达状态 s 的平均首访时间，链处于下一个状态 j 的概率为； 
利用全期望定理即可得到 g 的公式. 

例 7.13 考虑例 7.1 中爱丽丝听课的两种状态“进步”和“落后”，指出她的状态 
形成一个马尔可夫链，状态1和状态2分别对应进步和落后，且转移概率为 


Pn = 0.8, P 12 = 0.2, 

P2\ = 0.6, P22 = 0.4. 

我们着眼于状态 s = 1，计算从状态2开始到达状态1的平均首访时间.我们 
有 h = 0，以及 

t 2 = l + P2lh + P22t2 = 1 + 0At 2 , 

由此 



到达状态1的平均回访时间等于 

G = 1 +Plltl +Pl2(2 = 1 + 0 + 0.2 . 暑 = 互 . □ 


平均首访时间和回访时间方程组 

考虑只有单个常返类的马尔可夫链，令 S 为特殊的常返状态. 

• 从状态 i 到状态 S 的平均首访时间 M 是下列方程组的唯一解 

= 0， ti = 1 + 〉 ' pijtj , 对于所有的 i ¥ s ， 
j=l 

•状态 S 的平均回访时间 t * s 为 

= 1 + ^2/Psjtj. 

J=1 


7.5 连续时间的马尔可夫链 

前面所考虑的马尔可夫链中，我们假设状态的转移都是在单位时间内发生的. 
本节将考虑一类有关的连续性时间的模型，它能被用于很多按照连续性时间到达的 
过程. 例子是通信网络中的分布中心或结点，其中感兴趣的事件（例如,新信号的到 
达）是按照泊松过程到达的. 
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与前面类似，我们将考虑一个过程，它按照一定的转移概率从一个状态转移 
到下一个状态，但是我们令两次转移之间的时间是一个连续随机变量.我们依旧 
假设状态的个数是有限的，并且在不特别指明的情况下，设状态空间是集合 <S = 
{1，… ， m }. 

为了进一步介绍该过程，我们引入以下感兴趣的随机变量. 

X „: 第 n 次转移后的状态； 

第 n 次转移的时间； 

r „ :第 n - 1次转移和第 n 次转移的间隔时间. 

为完整起见，我们假设 X 。表示初始状态，且令％ = 0. 我们给出以下假设. 


连续性时间马尔可夫链的假设 

• 如果当前状态是 i ， 到下一个转移的时间服从已给参数^的指数分布，且 
独立于之前的历史过程和下一个状态. 

• 如果当前状态是 i ， 按照给定的概率到达下一个状态 j ， 而且独立于之 
前的历史过程和转移到下一个状态的时间间隔. 


上述假设是该过程的一个完整的描述，并提供一种清晰的方法来解 释它： 链进 
入状态 i ， 在状态 i 停留，停留时间是按照参数为^的指数分布，然后再以转移概 
率阳到达状态 j . 一个直接的结果是，状态序列在经过依次转移后，成为了一 
个离散 时间的马尔可夫链,其转移概率是该链称为嵌入的马尔可夫链. 

数学形式上,我们的假设可以用公式来表达.令 

^■ = { Ti = h ,--- , T n = t n , X 0 = * o , ••- , X n _i = i n _ i , X n = i} 


为直到第 n 次转移发生之前，链所有发生的事件.我们有 


P(-^n+l = j, ?n+l ^ = P(-<^n+l = jt ^ t\X n = i) 

= P(*^n+l = j\^n = i)P(Tn_|_i ^ t\X n = l) 
= Pije ~ Vit , 对于所有 i 彡 0. 


到下一个转移的平均时间为 


E[T n+1 \X n = i}= 「 TUiS-^dT = 

Jo 

所以我们可以认为内是停留在状态 i 的单位时间上，转移出状态 i 的平均转移次 
数. 于是，参数内称为跳出状态 i 的转移 速率. 因为表示从状态 i 转移到状态 
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3 的概率，所以 


Qij = v iV %3 

表示停留在状态 i 的单位时间上，从状态 i 到状态 j 的平均转移 次数. 从而，我们 
称妨为从状态 i 到：/的转移速率.注意,给定转移速率初，我们就可以通过下列 
公式计算转移速率％ 

v i = ， 

j=l 

并利用下列公式计算转移概率， 



注意，模型可能发生自身转移，就是从一个状态出发又回到该 状态. 当自身转 
移概率 Pii 不为0时，自身转移就会发生.但是，这样的自身转移没有观察的 意义： 
因为指数分布的无记忆性，直到下一个转移剩余的时间是一样的，不论自身转移发 
生与否.由于这个原因，我们忽略自身转移，从而假设 

Pit = Qii = 0,对于所有的 i - 

例 7.14 一台运转中的机器会一直工作, 直到瞀 告信号产生.从开始工作一直到 
产生警告信号的时间服从参数为1的指数分布.产生警告之后，机器将被检修，检 
修的时间服从参数为5的指数分布.检修结果以1/2的概率将机器维修好，此时机 
器将恢复正常 生产; 而另一个可能的结果是机器已经损坏 （ 概率为 1/2), 机器将送 
去修理.修理时间服从参数为3的指数分布.我们假设前面提到的随机变量都是相 
互独立的，且独立于检修结果. 

令状态1,2, 3分别表示正常工作，检验和修理.转移速率是^ = l , u 2 = 5, 
1/3 = 3. 转移概率矩阵和转移速率矩阵表示如下 



0 1 

0 


0 

1 

0 

p = 

1/2 0 

1/2 

， Q = 

5/2 

0 

5/2 


1 0 

0 


3 

0 

0 


具体解释可以参见图 7.20. □ 


①如果转移恰好发生在时刻记号 X ( t ) 的定义有些不清楚.通常的做法是令 X ⑷为恰好发生转移 
之后的状态，这时， X ( Y n ) 就是 X „. 
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我们最终发现前面定义的连续时间的马尔可夫 
链具有和离散时间马尔可夫链类似的马尔可夫性质： 

在给定当前的状态下,未来独立于过去.为了进一步 
认识该性质，定义 X ( t ) 表示连续时间马尔可夫链在 
时间 * > 0的状态，且注意它在两次转移之间 ® 将 
停留一段时间.利用指数分布的无记忆性，可以推 
出，对于第 n 次转移时间 y n 和第 n + 1次转移时间 
F „ +1 之间的任意时刻直到下一个转移发生的剩余图 7.20 例 7.14 中马尔可 
时间 y n+1 - 1 独立于系统已经在目前状态所停留的 夫链的阐述.弧线 

时间< - 进一步推出，对于任意时刻（，和给定当 附近的数据表示转 

前的状态 X ( t ), 过程的未来[随机变量 X ( t),t > t ], 移速率 

独立于过去[随机变量 X ( r ), r < t ]. 

7 . 5.1 利用离散时间马尔可夫链的近似 

我们来阐述连续时间马尔可夫链和对应离散时间形式的联系.这个联系给出了 
连续时间马尔可夫链的另一种描述，以及表示稳态行为的平衡方程组. 

取定一个小的正数5,考虑离散时间马尔可夫链它是每隔一小段时间5观 
察 X ( t ) 所得到的 

z n = X ( nS ), n = 0,1， ■ • •. 

实际上，根据 X ⑷的马尔可夫性质，可知是一个马尔可夫链（给定当前状态的 
前提下，未来独立于过去).我们利用记号 色,+ 表示的转移概率. 

给定状态= i ， 则时刻和 （n +1)5 之间发生转移的概率近似等于^<5.进 
一步地,概率;^表示转移到下一个的状态是 j . 所以 

Pij = P (^ n+1 = j \ z n = i ) = UiPijS + o ( S ) = qijS + o ( 6 ), 如果 j 笋 i ， 

其中 0 (5) 表示随 5 变小时的无穷小量.停留在状态 i 的概率是[也就是，在时刻 
和 ( n + l ) 5 之间没有发生转移 j 

Pa = p ( Z n +i = i \ Z n = i ) = 1 - y ^ Pa - 
下面给出连续时间马尔可夫链的另一种描述 

①到目前为止，我们已经证明一个连续时间的马尔可夫链满足这些 性质. 相反，也可以证明如果使用这 
种描述方法，可以 证明： 直到从状态 i 发生转移所需要的时间是指数分布，参数是％ = 进一 

步,在这种转移已经发生的事实条件下，转移到状 态：/ 的概率是这就证得了这种描述方 
法与原始的方法描述的马尔可夫链是一样的. 
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连续时间马尔可夫链的另一种描述方法 

给定连续时间马尔可夫链的当前状态《，对于任何单位时间5之后的 
状态是 j 的概率是 

qijS + o ( S ), 

且独立于过程过去的情况._ 


例 7.14( 续）忽略 0 ⑷项，对应的马尔可夫链的转移概率矩阵为 

1-S 8 0 

55/2 1 — 55 55/2 • 

36 0 1 -35 


例 7.15 (排队论）在一个通信系统中到达缓冲器的信号包的过程是一个参数为 A 
的泊松过程.信号存放在容积为 m 的缓冲器里，且每次只传输一个信号.但是，如 
果缓冲器里面的信号已满，新来的信号就会丢失.传输一个信号需要的时间服从参 
数为 M 的指数分布.不同信号之间的传输时间是相互独立的，也独立于所有间隔时 
间. 


我们将利用连续时间马尔可夫链对该系统建模，状态是 X ( t ) 表示 t 时刻对应 
系统中的信号数量[如果 X ( t ) > 0,那么 X ⑷ - 1表示队列中等待的信号数量，有 
一个信号正在被传输].当新信号达到，状态将增加1;当已存信号被传输，状态将减 
少 1. 为了证明； t ⑷确实是一个马尔可夫链，我们利用马尔可夫过程的另一种描 
述性定义,并且同时给出转移速率恥. 

首先考虑系统中为空的情况，也就是状态 X ⑷为0的情况.从状态0的转移 
只有当新信号到达才能发生，在这种情况下，状态变成了 1. 因为信号的到来是一 
个泊松过程，所以有 


P ( X(t + <5) = l \ X { t ) = 0) = + o (<5), 

f A ， 如果 j = 1， 

= < 

^ 0， 否则. 

接下来,考虑系统中信号满的情况，也就是状态 X ⑷为 m 的情况.状态 m 的 
转移只有当现有的一个信号完成传输才能发生，传输完成后状态变成了 m - 1. 因 
为传输所用的时间服从指数分布（具有无记忆性)，所以有 


P ( X(t + 5) = m — 1|X ⑷ =m) = fj,S o(S), 



以及 
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{ "， 勒= m - 1， 

0，其他. 

最后，考虑系统状态 X ( t ) 等于某个中间状态 i , 0 < i < m . 在下一个单位时间 
<5中，新信号到来的概率是+ 0 (<5),使得状态变成了 i + 1，完成一个信号的传输 
的概率是 ^6 + 0 ( 6 ), 使得状态变成了 i - l . [在时间间隔 <5中同时有新信号到来和已 
有信号的传输完成的概率是与 <5 2 同阶的，所以可以被忽略， 0 (5)的其他形式的情 
况也类似处理 .] 所以 

P(X(t + 6) = i- 1 | 邱 ） = i) = nS + o(S), 

P(X(t + 8) = i + l\X(t) = i) = \S + o(6), 

以及 

I A, 若） =i + 1 ， 

M , 若 j = 1, 对于所有的 i = 1，2, …， m -1; 

0，其他， 

参见图 7.21. □ 

©cbsd … 

图 7.21 例 7.15 中的转移图 

7.5.2 稳态性质 

现在我们把注意力放在连续时间马尔可夫链的长期行为上,重点在计算当时间 
* 不断增大时，停留在状态 i 的概率 P ( X ( t ) = *) 的极限情况.我们通过研究对应的 
离散时间马尔可夫链的稳态概率，来解决该问题. 

因为= X(nS), 很显然如果 F(Z n =j\Z 0 = i) 的 极限巧 存在的话，必等于 
P ( X ⑷ = j | X (0) = i ) 的 极限. 所以我们只需 考虑心 的稳态概率.因为是在离散时 
间链里，我们知道因为稳态概率是独立于初始状态的，所以我们只需假定链只 
有一个常返类.我们也注意到马尔可夫链—定是非周期的.这是因为自身转移 
概率为 


Pii = 1 - ^ X ] qi i + 0 ⑷， 
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当5很小时，这个概率为正数.而具有非零自身转移概率的链总是非周期的. 

链心的平衡方程组有以下形式 

m 

TTj = 对于所有的 j ， 

fe=l 

或者 

W 3 =1T jPjj +Yl 7Tk Pkj 

kltj 

= T^j 卜 — ⑷ j +^2^k{qkjS + o{6)). 

V k ^3 ) k^j 

我们合并方程两边关于巧的等式，再除以5,最后计算当5趋于0时的极限，我们 
得到平衡方程组为 

冗 j X ] n kqkj - 

k^j k^j 

我们现在可以给出如 下链& 的稳态收敛定理. 


稳态收敛定理 

考虑一个具有单个常返类的连续时间马尔可夫链.那么，状态 j 以及对应的 
稳态概率具有如下性质. 

( a ) 对于每个么我们有 

limP ( X ( t ) = j \ X (0) = i )= nj , 对于所有的 i . 

( b ) ^ 是下列方程组的唯一解 




= y^7Tfcgfcj, j = 1 ， ••- ，爪， 





1 

=J2 nk - 

k=l 

(C) 另外有 


7Tj = 0 ， 

对于所有的非常 返态： 


7Tj. > 0 ， 

对于所有的常返态 j . 


为了进一步阐述平衡方程组，我们把％看成过程花费在状态 i 上的时间平均 
长期频率.那么 ir k q kj 就可以看成从 fc 到 j 的转移的平均频率（单位时间内，转移 
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从 fc 到 j 的平均次数).所以平衡方程的本质就是从状态 j 开始的转移的频率（方 
程的左边巧等于进入状态 j 的转移的频率（方程的右边 E 咕 ^ q kj ). 
例7.1 4 (续）该例子的平衡方程组和归一化方程为 

5 5 

兀1 = ^2 + 3-7 T 3, 57 T 2 = 7 Ti , 37 T 3 = -7 T 2 , 

1 = 丌1 + 7 T 2 + 丌 3. 

和离散时间的情况一样，这些方程组中有一个是多余的，也就是，第三个方程可以 
由前两个方程得到.进一步地，得到唯一解 

30 6 5 

^ = 41 ' W2 = 41 ^ ^ 3 = 41 - 

所以，例如，如果我们让过程长期转移下去， X ( t ) 将以稳态概率30/41停留在状态 
1,且独立于初始状态. 

该稳态概率 巧 要区分于嵌入的马尔可夫链的稳态概 率％. 确切地，嵌入 
的马尔可夫链的平衡方程组和归一化方程为 


元1 = 2元 2 +元 3, 亓2=^1，元3 = 2元2, 
1 = 亓1 +亓2 +亓3， 

得出结论 


为了阐述概率％的意义，我们举例说明，如果让过程长期转移下去,到达状态1的 
转移平均频率为 2/5. 

注意，尽管？^ =心(也就是，转移到达状态1的次数和到达状态2的次数相 
当)，我们也有町 > 7 T 2. 原因是过程倾向于在到达状态1时多花费一些时间，相对 
于花费在状态 2 上的时间要长.所以，给定一个时刻 t , 过程 X ⑷更有可能处于状 
态 1. 这种情况是典型的，两组稳态概率（巧和％) —般情况下是不同的.主要的 
例外情况是,转移速率 K 对每一个 i 都是一 致的; 参见本章末的习题. 口 

7.5.3 生灭过程 

类似于离散时间的情况， 生灭过 程中的状态是线性排列的，转移只发生在相邻 
状态之间，或者停留在原处.严格地,我们有 

Qij = 0,当 |i — j _| > 1. 

在生灭过程中，从 i 到:/ 的转移和从 j 到 i 的转移的长期平均频率是相同的，由此 
推 出了局 部平衡方程组 

= Tuqij , 对于全部的 
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局部平衡方程组与离散时间的情况具有相同的结构，能推出类似形式的稳态概率公 
式. 

例 7 .1 5 (续）局部平衡方程组形式如下 


TTiX = TTi + lfl , i — 0,1, ■■- , m — 1, 


我们得到 7 T i+1 =抑, 其中 P = A // i . 所以，我们有 TTi = pVo , 对于所有的 i 又由归 
一化方程 1 = E =。 m 得到 


1 = tt 0 ^2p\ 
1=0 


于是稳定概率为 


1 + P +…+广 


i = 0,1 ， … ， m. 


□ 


7.6 小结和讨论 


在本章中，我们介绍了具有有限个状态的马尔可夫链.在离散时间马尔可夫链 
中，在整数时刻发生状态转换,转移概率为马尔可夫链区别于一般随机过程的 
核心性质是转移概率的性质，在当前状态为 i 的条件下，下一个时刻为状态 j 
的转移概率为 这与 i 所在的时刻是无关的，且独立于时刻以前的状态.所以, 
给定当前一个状态,未来的状态与过程的过去状态是相互独立的. 

从现实角度看建立适当的马尔可夫链模型从某种意义上说的确是一门艺术 .一 
般地,我们需要给出足够充分的状态信息，使得当前状态能反映来自过程中任何能 
联系过去与未来相关的信息.在满足上述要求的基础上，我们通常需要将模型变得 
尽量简洁,避免不必要的多余状态. 

给定一个马尔可夫链模型，这里有几个有趣的问题. 

( a ) 有关有限时间上过程的统计量的 问题. 我们已经计算过过程经过任何一个 
特定路径的概率，通过沿路径轨迹的转移概率的连乘积得到.更一般的事件是由一 
些相关的路径组成，因此在计算这些事件的概率的时候只需将与事件相关路径的概 
率相加即可.在一些情况下，我们可以利用马尔可夫性质进行计算，从而避免列举 
与事件相关的所有路径.例如，在计算 n 步转移概率的时候，可以利用査普曼-科 
尔莫戈罗夫方程进行迭代计算. 

( b ) 有关马尔可夫链的稳态概率的问题.为了解决这类问题，我们对马尔可夫 
链的状态进行分类，状态可分为非常返的和常返的两类.马尔可夫链的所有常返状 
态的集合又可以划分为互不相交的常返状态类，以便使得在同一个常返类中的状态 
都是相互可达的.而每一个常返状态类又可以区分为周期和非周期的两个不同性 
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质的常 返类. 马尔可夫链的理论的中心结论是,如果链是由单个非周期的常返类以 
及加上几个可能的非常返状态组成的，那么状态到达某个 j 的概率 nj ( n ) 在时间 
趋于无穷大时，是收敛的，其极限值称为稳态概率巧，这个极限值不依赖于初始状 
态 i - 换句话说，初始状态不论取什么值，当 n 很大时，对的统计特性没有影响. 
通过解由平衡方程组和归一化方程 ^ = 1组成的线性方程组，我们可以得到稳 
态概率. 

( c ) 有关马尔可夫链的状态转移性质的问题.我们已讨论过吸收概率（从一个 
给定的非常返状态出发，最终进入给定的常返状态的概率)，以及平均首访时间（假 
设链具有单个的常返类，一个特定常返态被首次访问的平均时间).两种情况下，我 
们都证明了感兴趣的量都可以通过求解一系列线性方程，而且得到唯一解. 

最后我们也考虑连续时间的马尔可夫链.在这类模型中，给定当前状态下，下 
一个状态由类似于离散时间的马尔可夫链的相同机制所决定.但是，直到下个转移 
发生的时间是指数型随机变量，参数只依赖于当前状态.连续时间的马尔可夫链在 
许多方面可以类比离散时间的马尔可夫链.它们具有相同的马尔可夫性质（在给 
定当前情况下，未来与过去独立 •） 事实上，人们可以将连续时间的马尔可夫链看成 
时间轴上进行细分离散化的离散时间的马尔可夫链.建立这个联系后,连续时间的 
马尔可夫链与离散时间的马尔可夫链的稳态特性是相 似的： 假设只有一个常返类, 
那么处于任何状态的概率，当时间趋于无穷的时候，都收敛于一个稳态概率，而且 
该概率不依赖于初始 状态. 稳态概率可以通过求解平衡方程组和归一化方程得到. 

习 题 

7.1 节离散时间马氏链 

1. 相邻两个顾客陆续到达一个机构的时间间隔是独立同分布的随机变量序列，其公共分布 
列为 

0.2, 若 fc = 1， 

0.3 ，若 k = 3, 

0.5, 若 fc = 4， 

0，其他， 

构造一个 4 状态马尔可夫链模型来描述该到达 过程. 在这个模型里，其中一个状态应该 
与到达发生的时间相对应. 

2 - 一只老鼠在走廊里移动，走廊里有 2 m 块瓷砖 ， m > 1. 在瓷砖 i / 1,2 m 时，老鼠就以等 
概率向左 i - 1,或向右 i + 1移动.在瓷砖1,或者 2 m 时，老鼠就必定分别移向瓷砖2, 
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或者 2 m _ 1. 每次，老鼠走到瓷砖 i < m , 或 i > m 时，电子设备就会分别发出信号 i 
或者兄那么由信号 L 和丑组成的序列是由状态 i 和丑组成的马尔可夫链吗？ 

3. 考虑例题 7.2 中如图 7.2 所示的 m = 4情况下的马尔可 夫链. 假设过程以等概率地从4 
个状态中的任意一个开始，当马氏链处于状态1或状态 2 时，令 K = 1，当马氏链处于 
状态3或状态4时，令= 2. 那么，过程 Vn 是马尔可夫链吗？ 

7.2 节状态分类 

4 . 一只蜘蛛和一只苍蝇在一条直线上以单位增量移动，蜘蛛总是向苍蝇移动一个单元，而苍 
蝇以 0.3 的概率向靠近蜘蛛方向移动一个单元，以 0.3 的概率向远离蜘蛛方向移动一个 
单元，以 0.4 的概率保持在原地不动.蜘蛛和苍蝇间的初始距离是整数，当蜘蛛和苍蝇到 
达同一个位置时，蜘蛛就捉住了苍蝇. 

( a ) 构造一个马尔可夫链描述蜘蛛和苍蝇之间的相对 距离. 

( b ) 指出状态空间中哪些是非常返状态，哪些是常返状态. 

5. 设有一个马尔可夫链，有状态1，2, ...，9. 转移概率如下： pi 2 = P 17 = 1/2,当 i # 1，6,9 
时 ， Pi(i+1) = 1，且 P61 =P91 = 1- 该马尔可夫链的常返类是有周期的吗？ 

6. * 常返状态的存在性 证明： 在马尔可夫链中，从任意一个给定的状态出发至少可以到达一 

个常返状态，也就是说，对于任意状态 i ， 在从 i 出发可以到达的状态集合4⑷中至少存 
在一个常返状态 j . 

解固定一个状态 i , 如果 i 是常返的，此时对于每一个 e A ( i ) 也是常返的，此时结 
论成立.如果 i 是非常返的，此时就存在一个状态 h e A ( i ) 使得 i 如果 h 就 

是常返的，那我们就已经找到了一个从 i 出发可以到达的常返状态.假设 ii 是非常返的， 
则必有 i 丰 i ' ' 因为若不然，则由假设 h £ A ( i ) 和 i 矣 A { ii ), 而 i 与 i ' 又相同，这样就 
得到 i e A ( i ) 和 i 在 A ( i ) 这两个相悖的结论.因为，奴是非常返的，必存在某个 i 2 使得 
i 2 e A { h ) h i A ( i 2 ). 特别地, i 2 e 4( i ). 如果 i 2 是常返的，则结论成立，所以此时 
假设是非常返的，相同的方法可以证得 ： h / i 2 . 更进一步地，我们必须有一 i ， 这 
是因为如果我们有 i 2 = i ， 则将得到 e A ( i ) = A ( h ) 的结论，和假设奴_ A ( i 2 ) 相矛 
盾.将这个过程一直继续下去，在第 fc 步时，我们将或者得到一个常返状态4,它可以从 
i 出发到达，或者不同于之前所有状态 i , ii , •■- ,4- i 的非常返状态.因为状态的个数是 
有限的，因此,常返状态必然会最终达到 • 

7 . * 考虑一个由一些非常返状态和常返状态组成的马尔可夫链. 

( a ) 证明： 存在正数 c >0 和0<7<1，使得 

P ( X n 是非常返状态= i ) < C 7" 对于所有的 i 和 n 彡 1. 

( b ) 设 T 表示使得到达常返状态的第一个时刻 n , 证明： 这样的一个时间确实是存 
在的[等价于，以概率为1地存在一个时刻 n ( n 不是一个常数，与试验结果序列有 
关!）使得为常返状态]，并且 E [ T ] < oo . 

解 （ a ) 为方便起见，记 


qi ( n ) = P ( X „ 是非常返状态 | X 0 = i ) 
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容易证明，从状态 i 出发，一定可以找到步长不大于 m 的路径（这里 m 是指状态 
个数)，这些路径以常返状态为终点，并且其概率为正.这些路径不可能以正的概率 
延长到一个非常返状态.这样,在计算 qi ( m ) 的时候，要排除这些路径的概率，因此， 
有结论 qi ( m ) < 1.令 

注意，对于所有的 i ， 都有 qi { m ) ^13 <1. 如果到时刻 m 还没有到达一个常返状 
态，此事件发生的概率至多为 /?• 在此条件下，在未来 m 步还不能到达常返状态的 
条件概率也同样至多为/?，也就是说 gi (2 m ) < P 2 , 事实上,我们可以将这个不等式 
形式地写下来. 

qi (2 m ) = P ( X 2m 是非常返状态|义。= i ) 

= [ P ( X 2 m 是非常返状态 | X m = j , X 0 = i ) P ( X m = j | Xo = i ) 

i 是非常返状态 

= Y , p d 是非常返状态 | x m =：/) pp ! r m =； / ix 。= i ) 

j 是非常返状态 

=[ P ( x m 是非常返状态 | x 0 = 刃 p ( x m = j | X 0 = i ) 
i 是非常返状态 

^0 E P(^ m = j \ x 0 = i ) 

i 是非常返状态 

= /3 P(Xm 是非常返状态 |Xo = i ) 

^/3 2 . 

类似地继续下去，我们有 

qi { km ) d 对于所有的 i 和 fc 彡 1. 

令 n 表示任何正整数， fc 表示使得 km ^ n<(k + l ) m 的整数，我们有 

qi { n ) ^ qi { km ) 《 /3 k = / T 1 ( j 3 1/m ) < ' k+V>m ( ^ _1 (/3 1/m ) n 

因此， ^ = /3- 1 ,7 = /3 1/ m 即可获得想要的关系. 

( b ) 设4表示状态永远不进入常返状态集合的事件，使用 （ a ) 部分得到的结果，我们有 

P ( A )^ P ( X n 是非常返状态 K C 7". 

因为这对于所有的 n 都成立，并且因为 7 < 1,我们必然有 P (4) = 0,这就说明几 
乎可以肯定（概率等于 1) 第一次到达常返状态的时间 r 是有限的.这样便得到 
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E [ T ] =^ nP ( X „_ i 是非常返状态 ， X „ 常返) 

n=l 

< f ； nP ( X n _! 是非常返状态） 

n=l 

nc ^ n_1 

n=l 

= r ^ E n ( 1 -^ n_1 


= (T 3 tF , 

其中，最后一个等式是使用了几何分布均值的计算公式. 

8. * 常返状态. 证明： 如果常返状态已经被访问了一次，那么在将来它被再次访问的概率等于 

i ( 因此，在将来时间里无限次被访问的概率也等于 1). 提示：修改马氏链,使得感兴趣的 
常返状态是唯一的常返状态，然后使用习题 7( b ) 的结论. 

证明 在文中已经指出，常返状态的集合可以分解成若千个互不相交的常返状态类，不 
同类的状态是互不可达的.设 s 是一个常返状态，并假设 s 已经被访问过一次,从那时开 
始，可能的状态就只在 s 所在的常返类内.因此,不失一般性，我们假设只有一个常返类. 
假设目前的状态是某个 i # s , 我们想要证明， S 保证会在将来的某个时间被再次访问. 

考虑一个新的马氏链，在原来的转移概率阵中将设成1，阳= 0, i / S ， 这样从 s 状 
态不能够转移出去.对其他状态 i # s ， 其转移出去的概率~保持 不变. 显然，《是新链 
的常返状态.更进一步地，对于任何状态 i # s ， 在原链中从 i 到 s 都有一条有着正概率 
的路径（因为 s 在原链中是常返态).同理，在新链中也成立.而在新链中从 s 出发无法 
到达 i , 所以对于新链中的每一个 i # s 都是非常返状态.通过习题 7( b ) 的结论,状态 S 
在新链中将以概率1被最终到达，但是原始链在 s 被第一次到达之前与新链是完全等同 
的.因此，在原链中状态 s 保证能被最终到达.重复这个证明过程,我们可以得到， s 保证 
会以概率1被无穷次访问. 

9. * 周期类. 考虑一个常返类 ii . 证明，下述二者之一成立. 

( i ) R 中的状态可以被分为 d > 1个不相交的子集 S lr -- , S d , 使得馬中的所有状态 
下一步都转移到况 = +1 中，或者当 fc = d 时馬中的所有状态下一步都转移到的中 
(在这种情况下， i ? 是周期的). 

( ii ) 除了有限个时刻外,对所有的时刻 n 和所有的€丑都有 rij ( n ) > 0( 在这种情况 
下， E 是非周期的). 

提示：固定一个状态 i ， 并且设 d 是集合 Q = { n \ r u { n ) > 0} 中元素的最大公因数.如 
果 d = 1，使用如下基础数论的 事实： 如果正整数的集合 { ai , a 2 ,---} 没有除1以外的 
公因数，则除一个有限集外的任意正整数 n , 均可以表达为如下形式 ： n = k iai + k 2 a 2 + 
... + kt a t , 其中如，…，为某些非负整数，; t 是某个满足6彡1的整数. 

证明 固定状态 i 6凡考虑集合 Q = { n \ ru ( n ) > 0}. 设 d 是集合 Q 中元素的最大公 
因数.首先考虑 d # 1的情况.对于 fc = 1，2,…， d ， 设汍表示对于某个非负整数 Z ， 从 
状态 i 出发经过 ld + k 步能到达的所有状态的集合.假设 s e 并且 p ss , > 0. 因为 
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ses k , 所以对某个 z ， 从状态 i 出发经过 w + fc 步能到达 s , 也就是说我们从状态 i 出发 
经过 w + fc +1步能到达 s '. 这就证明了当 fc < d 时， s ' e 5 fc +1 ； 当 = d 时， s ' e 
现在只剩下证明集合 5 i , •• - , s d 是互不相 交的. 使用反证法.假设存在某个 k ^ k',K 
存在 s 使得 s e Sfc 且 s e 设 g 表示一条从 s 到 i 的正概率路径的长度.从 i 出发, 

我们经过 ld + k 步到达再经过 g 步返回 i . 这样就有 ld + k + q 属于集合 Q ， 也就是 
说 d 可以整除 k + q , 同理可证， d 也可以整除 fc ' + g , 这样 d 就可以整除 fc _ fc '， 但是由 
于1彡 |fc — fc '| 彡 d — 1,因此得到矛盾① 

现在考虑 d = 1的情况，令 Q = { ai ， a 2 , …}，因为这些都是从 i 出发再回到 i 的 
正概率路径的可能长度，因此具有形如 n = k \ a \ + k 2 a 2 + • • ■ + ktcxt 的任何整数 ri 也 
在集合 Q 里（想得到这个结论，用如乘以长度为 m 的路径， fe 乘以长度为 a 2 的路径， 
…… )• 通过提示中己给的数论事实可知，除了有限多个正整数以外，集合 Q 几乎包含全 
体正整数，即存在一个％,使得 

ru ( n ) > 0,对所有的 n > ri ; 成立. 

固定某个# i ，且设 g 是从 i 到 j 长度最短的正概率路径，故 g < m ， 这里 m 是链中 
状态的总个数.考虑某个满足 n >〜+ m 的 n ， 并注意到 n - g > m + m — q > m . S 
样，我们就可以经过 n — q 步} ki 出发回到它自己，然后经过 g 步从 i 到 j . 因此，只要 
n >叫+ m ， 从 i 到 j 就有 rij ( n ) > 0, Vj € R . 这个结论显然对任意 i 都成立.故结论 
⑼成立. 

我们至今已经证明了题目中的两个结论至少一个是成立的.这两个结论显然不能同 
时成立，这是因为一个常返类，要么是周期的，要么是非周期的，两者不能同时成立. 

为了完整起见，我们在这里提供上面用到的数论事实的证明.我们从正整数集合 
开始，并假设它们除了 1外没有其他的公因数.我们定义 M 表示一切具 
有形式 E-=i kiai 的正整数的集合，其中表示非负整数.注意这个集合在加法运算下 
是封闭的 （ M 中的两元素之和也具有这种形式，因此必然属于 M ). 设 s 表示 M 中两不 
同元素的最小差.这样有：^ 1且对于所有的 i , 有 g 《 ai (因为叫，2叫都属于 M ). 

假设 g > 1,因为{叫的， ...} 的最大公因数为1，就存在某个 Qi *, 不能被 S 整除, 
于是对于某个正整数 Z ， 我们有 

ai * = lg + r 、 

其中余数 r 满足0 < r < s . 进一步地，从 s 的定义角度来看，存在非负整数幻， k [, k 2 , k f 2 , 
…九 虼使得 

t t 

hoci 二 ^2 Won + g . 

i=l i=l 

将上式两边同 乘以“ 并利用方程 = lg r , 得到 

t t t 

y ^ Xlki)aj = y ^( lk ! j)ai +lg = ^( Ik^aj + - r . 


①由 d / 1 可导致马尔可夫链的常返类是有周期的，并且周期为 d , 这个性质与 i e i ? 的取法是无关 
的，即从一开始随便固定一个状态（例如取定 j / i )， 也会得到相同的结论.——译者注 
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这就证明了在集合 M 中存在两个数它们的差为 r . 因为 0 < r < &这就和我们假 
设 S 是最小的可能差值相矛盾，因此也就证明了 S 必须等于 1. 

既然= 1，就存在某个正整数 x 使得 x e M 并且 a ; + 1 e M . 我们将要证明， 
对于每一个大于 a # 的整数 n 都属于 M . 事实上，通过用⑴去除 n 我们可以得到 
n = fc ai + r , 其中 fc > a :， 且余数 r 满足 0 < r < cn . 我们将 n 改写成如下形式 

n = x(ai — r ) + (x + l)r + (fc — cc ) ai . 

因为 X , x + l, ai 都属于这就证明了 n 是 Af 的元素和，因此也属于 M ， 这样就证明 
了我们的结论. 

7.3 节稳态性质 


10. 考虑例 7.3 中机器损坏和维修的两个模型 .求： 马氏链含有单个非周期常返类时 b 和 r 
应满足的条件，并在这个条件下求出稳态概率的明确表达式. 

11. 一个教授进行的测试分为难、中等、容易三类.如果他给出的是难的测试，那么下一次测 
试的难度将是中等难度或者是容易的，并且这两种难度出现的概率是相等的.但是，如果 
他给出的是中等难度的测试题或者是容易的测试题，则下一次测试将以 0.5 的概率依然 
保持此难度，以 0.25 的概率分别采用其他两种难度的测试.构造一个合适的马尔可夫链， 
并计算稳态概率. 

12. 埃尔文喜欢在每个星期六出海去附近的小岛上的别墅.他很喜欢钓鱼，只要天气好，他会 
在来回小岛的路上钓鱼.但是，在来回小岛的路上天气好的概率只有 P , 并且独立于过去 
航行的天气情况（所以天气可能在去的时候很好，但是回来的时候很不好).如果天气很 
好的话，则埃尔文会带着他 n 支渔竿中的一支,但是如果天气不好的话，他就不会随身携 
带渔竿.我们想求出在给定一段来小岛（或者从小岛回家）的旅途中，天气很好但是埃尔 
文因为他的渔竿都在另一个房子而没有钓鱼的概率. 

( a ) 计算一个有着 n + 1个状态的合适的马尔可夫链，并计算各状态的稳态概率. 

( b ) 在给定行程的条件下，求埃尔文在好天气出海却没有带渔竿的稳态概率. 

13. 考虑如图 7.22 所示的马尔可夫链,我们将转移到一个高（低）指标状态称为“生”（“死”). 
假设在我们开始观测这个链时它就已经平稳了，计算如下各个量. 


0.4 



0.3 0.2 


图 7.22 习题13中的转移概率图 

( a ) 对于一个状态 i , 求当前状态是 i 的概率. 

( b ) 求我们观测到的第一次转移是“生”的概率. 
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( c ) 求我们观测到的第一次状态变化是“生”的概率 ® 

( d ) 在转移是“生”的条件下，求在我们观测到的第一次转移之前过程位于状态2的概 
率. 

( e ) 在状态变化是“生”的条件下，求在我们观测到的第一次状态变化之前过程位于状 
态2的概率. 

( f ) 在第一次观测到的转移造成了状态改变的条件下，求第一次转移是“生”的概率. 

( g ) 在第一次观测到的转移造成了状态改变的条件下，求第一次转移到状态2的概率. 

14. 考虑一个已知转移概率并且含有单一非周期常返类的马氏链.假设对于 n > 500, n 步转 
移概率非常接近于平稳状态概率 

( a ) 求 P ( A ： 1000 = j , X 1001 = k , X 2 ooo = l \ X 0 = i ) 的近似计算公式. 

( b ) 求 P ( X 1000 = i | X 100 i = j ) 的近似计算公式. 

15. 埃伦费斯特扩散模型. 我们总共有 n 个球，其中一部分为黑球，一部分为白球.在每一个 
时间点上，我们或者以概率 e (0 < e < 1) 什么也不做，或者随机选一个球，使得每一个球 
被选中的概率为 ( l - e )/ n >0. 在后一种情况下,我们将所选球的颜色改变（白的变成黑 
的，黑的变成白的)，过程就这样无穷地重复下去 .问： 白球个数的稳态分布是什么？ 

16. 伯努利-拉普拉斯扩散模型. 两个坛子中的每一个都有 m 个小球 . 2 m 个小球中，有 m 
个是白球， m 个是黑球.同时从两个坛子中拿出一个球放入另一个坛子中并且过程一直 
持续下去，问每个坛子中白球个数的稳态分布是什么？ 

17. 考虑一个两状态（分别记为1， 2) 的马氏链,转移概率为 


Pll = 1 — CX, P12 = Q, 


P21 = 0, P22 = 1 - /?, 


其中 £*,0 满足 O < a < l ， O <0< l . 

( a ) 证明： 链中的两状态形成了一个非周期常返类. 

( b ) 使用归纳法证明，对于所有的 n ， 我们有 


一)=^ + 
r21 ㈨ = 击- 


a(l — a — /3) n 
a + /3 

(3{l-a-pr 

a + /9 


ri2(n) = ^ 
r22(n) = 


a(l — a — /3) n 

a + p 

/3(l-a-/3r 

a + (3 


( C ) 稳态概率 Tn ，772 是多少？ 

18. MIT 的停车库安装了一个磁卡门，但不幸的是，由于人们的粗心，门非常容易出现问题. 
特别地,每天一辆车撞门的概率为 p ， 并且在这种情况下就需要安装一个新门.同样，门在 
坚持了 m 天之后由于周期性的维修必须进行替换 .问： 门更换频率的长期期望是多少？ 

19.* 稳态收敛.考虑一个含有单个常返类的马氏链，并且假设存在一个 时刻瓦使得： 对于所 
有的 i 和所有常返态的 


rij ( n ) > 0. 


①“状态转移”是指从状态 i 转移到状态 j, 但是 i 与 j 可以 相同； “状态变化”是指从状态 i 变化到 
状态 j, 这时状态 i 与 j_ 一定不同.——译者注 
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(这和假设“常返类是非周期的”是等价的). 证明： 对于任意的 i , j '， 极限 
lim rij ( n ) 

存在，且不依赖于 i . 为了证明这个结论，我们需要证明初始状态的选择没有长期效应. 
要量化这个效应，我们考虑两个不同的初始状态 i , / c , 并考虑两个独立的马尔可夫链 
和 y „， 它们具有相同的转移概率，但是初始状态不一样 ， Xo = i,Yo = k. 令 r = 
min { n | X n = Y n } 表示两个链第一次到达同一状态的 时间. 

( a ) 证明存在一个正常数 c 和7 < 1，使得 

P(T 彡 nK C7 n . 

( b ) 证明如果在时刻 n 以前某个时刻（含 n ) 两个链的状态是相同，则它们在时刻 n 的 
状态概率也相同，即 

P{X n =j\T 《 n) = P(Y n =j\T^n). 

( c ) 证明对所有的 i,j,k,n, 都有 | ri ,( n ) - r kj (n)\ < 提示： 分别计算在两事件 
{r > n} 和 {T < n} 的条件下的条件概率. 

( d ) 设 <( n ) = m . ax . inj { n ), qj { n ) = minmj .( n )， 证明： 对所有的 ra ， 有 

qj (n) ^ qj (n + 1) < (n + 1) ^ gt ( n ). 

( e ) 证明序列收敛于一个不依赖于 i 的极限.提 示： 综合 （ c )，（ d ) 两部分的结论，证 
明两序列 q +( n ), q -( n ) 是收敛的，并且极限相同. 

证明 （ a ) 此结论与习题7中计算直到到达常返状态所需时间的分布列的上界是相似的. 
设 Z 是某个常返状态，定义/? = mi ni rain ) > 0. 无论现在链 X „， 的状态是什 
么，在开步后两链都处于状态/的概率至少为/3 2 .这样， 

P(T > n) 彡 1-/3 2 . 

类似地，可得 

P(T > 2n) = P(T> n)P(T > 2n\T > n) < (1 - /3 2 ) 2 , 

P(T > kn) ^ (1- P 2 ) k , 

这就证明了 

P(T ^ n) < C 7 n 

其中, 7=(1- /3 2 ) 1/w , C = 1/(1 - p 2 r . 

( b ) 我们分别在 r 可能的取值上以及两链在时刻 r 时的共同状态 z 下取条件化，使用 
全概率公式，我们有 

P(Xn =j\T^n) = J2J1 p ( x " =j\T = t,Xt = Z)P(T = t,X t =l\T ^n) 

t =0 1=1 

= J 2 12 p ( x ™ = J ' l Xt = Z ) P(r = t,Xt = l\T ^ n ) 

t =0 1^1 

= ^^> w (n-0P(T = i ， X t =Z| ： r<n). 
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P(Vn =j\T ^ n) = ^2^2 nj(n - t)P(T = t,Y t = l\T < n ). 

t=o J =1 

但是事件 {r = = o 和{了 = 0 是等同的，因此具有相同的概率，也 

就是说， P(X n =j\T < n ) = P ( y n = j | T < n ). 

( c ) 我们有 

rij(n) = P(X„ = j) = P(X„ = j\T ^ n)P(T ^ n) + P(X„ = j\T > n)P(T > n), 
rkj(n) = P(y n = j) = P(V„ = j\T ^ n)P(T ^ n) + P(Y n = j\T > n)P{T > n), 
将上述两式相减，使用 （ b ) 部分的结论消去右边的第一项，我们得到 

\m{n)- r ^( n )| ^ | P ( X „ = j\T > n)P(T > n) - P(Y n = j\T > n)P(T > n )| 
^ P ( T > n ) 

( d ) 通过对第一次转移的状态取条件化，使用全概率公式，我们得到如下査普曼-科尔 
莫戈罗夫方程的另一种形式 

r y (n + 1) = ^2pikr k j(n). 
k=l 

使用这个等式，我们得到 

g /( n + 1) = maxr i; ,(n + l ) = max ^ ( n ) ^ = g /( n ). 

1 fc=i 1 fe=i 

利用对称性可得不等式 qj{n) < qr(n + l ), 由定义直接可以得到 qj{n+l) ^ 
q^in + l ). 

( e ) 由于序列 f ( n ), g /( n ) 对 n 的单调性，当 n — oo 时,这两个序列是收敛的.对于 

所有的 i ， fc ， 不等式 \ rij {n) - r kj (n)\ < 07 ™ 可以推出 qf(n) - f ( n )< q ". 令 
n ^ oo , 由这个不等式可知 和 9+ W 的极限是一样的.令巧表示这个共 

同的极限•因为 q~(n) < rij (n) ^ g /( n )， 因而 rij (n) 也收敛于 7 ^并且极限独立 
于匕 

20.* 平衡方程解法的唯一性.考虑一个具有单个常返类并且附加一些非常返状态的马尔可夫 
链. 

( a ) 假设常返类是非周期的，证明平衡方程和归一化方程一起存在唯一非负解.提示： 
给出一个不同于稳态概率的解，使得它是的分布列并且考虑当时间趋于无穷时 
的情况. 

( b ) 证明在⑷部分的唯一解的结论在周期性的常返类的情形下依然成立.提示 ：引入 
自我转移的马尔可夫链，这样可以产生等价的一些平衡方程组，再运用 （ a ) 部分的 
结果. 
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证明 （ a ) 设 7 n , ...， 7 r m 是稳态概率，即 rij ( n ) 的 极限. 它们满足平衡方程和归一化 
方程.假设存在另一组非负解心， • ■ ■ , Tfm . 我们通过这些概率建立马氏链，因而 
对于所有的 j ， 有 P(Xo = j )= TTj . 由文中的讨论，我们得到在各个时间点都有 
P ( X n = 因此， 

7Tj = lim P(X n = j) 

n—+oo 

m 

=lim Y 亓 fcr fcj (n) 
fe=l 

亓 fcTTj 

k=l 

= 7 Tj -• 

( b ) 考虑一个新的马氏链，其转换概率拓 j 如下 给出： 

pii = (1 - Oi)pu + a, Pij = (1 一 0 i)pijJ # i. 

这里 a 满足 0 < a < 1. 这个新的马氏链的平衡方程表达式为 

% = ^((1- a)pjj ~~ 

或者是 

(1 - a)nj = (1 一 a) E mpij. 

i=l 

这些等式和原链的平衡方程是等价的.注意，新链是非周期的，原因是自我转移有 
正概率.这就为新链建立了平衡方程的唯一解，这对原链同样适用. 

21 .* 平均长期频率的解释.考虑一个非周期的单一常返类马氏链. 证明： 

对所有的 = , m 都成立 

这里 D 是稳态概率， Vi ^ n ) 是指在头 n 次转移中，从状态 i 开始，到达状态:/的平均 
访问次数.提示：使用以下分析的事实.如果数列收敛到实数 A 那么定义为 k = 
( l /^) ELi ^ 的序列 k 也同样收敛到 a _ 

证明我们首先证明对于所有的 n ， i ， j , 有 

Vij ( n ) = 『ij ⑻- 
k=l 

为了更明白这点，注意 

Vij ( n ) = E |^4| x 0 = i | , 

这里 A 是随机变量， 当 X k = j 时取1，其他情况下取0,于是 


B [ I k \ X 0 = i ] = njik ). 
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又因为 

字⑻， 

rij ( k ) 收敛到％，这表明 Vij ^/ n 同样收敛到％，这就是我们希望的结果. 

为了完整性，我们同样证明在提示中给出的事实（它在上面讨论的最后一步中用到 ：). 
考虑一个序列 a „ 收敛到 a ， 并设= (1/ n ) ELi 固定某个 e > 0 ,因为收敛到 
a , 所以存在某个 n 0 使得对所有的 fc > no , at 彡 o + ( e /2). 再令 c = max fc a k . 我们得至 ! J 


1 ^0 1 n 


当 n 趋于无穷时，上式右边的极限是 a + ( e /2). 因此，存在某个 m 使得当 
时，有 6™ 在 a + e . 运用对称的论证,存在某个 n 2 使得当 n > n 2 时，有> a - e . 我们 
已经证明对任意的 e > 0,存在某个 n 3 ( 比如， n 3 = ma X { m , n 2 }), 使得对所有的 n 彡 n 3 , 
有 - aK e . 这表明&„收敛到 a . 

22.* 二重随机矩阵.考虑一个非周期的单一常返类马氏链,且转换概率矩阵是二重随机的.也 
就是说它每一列或每一行的元素和为1，因此有 


=!，… , 771 . 

i=l 

⑷证明例 7.7 中链的转换概率矩阵是二重随机的. 
( b ) 证明其稳态概率是 


= b 卜 h …， m . 

(C) 假设这个链的常返类是周期的.证明 Tn =…= 7 r m = 1/m 是这个由平衡方程组 
和归一化方程组成的方程组的唯一解.在例 7.7 的条件中当 m 是偶数时讨论你的 
答案. 

证明 ( a ) 很明显地，本例中的转换概率矩阵的每一行和每一列的和均为 1. 

( b ) 我们有 

因此给定的概率巧= 1/ m 满足平衡方程组，它必定是稳态概率. 

( c ) 令 （ u , …， 7 T m ) 是平衡归一化方程的任意一 组解. 考虑一个特 别的： /,使得对于所 
有的 i 有 7 T , ^ 7 R ，令 g = 在状 态:/ 时平衡方程满足 

q = 7 r j = TTiPij ^ q^Pij = q, 
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这里的最后一步能够成立是因为转移概率矩阵是二重随机的.这表明以上的不等式 
事实上是一个等式即 


= J 2 qp » - 

i=l i=l 

由于对所有的 i 有 我们得到对所有的 i ， n iPij = q Pij , 因此对每一个可 
能转移到:/的状态 i 有％ = g . 既然所有满足?^ > 0的状态 i ， 均有％ = g , 重复 
这一过程，可知所有满足 PH > 0( 此处 i 满足> 0) 的状态 Z , 均有 th = g ， 即所 
有两步能到达状态:/的状态，其相应的稳态概率为 g . 进而我们发现对于每个状态 
i 当存在一个从 i 到的非负的概率路径时，就有 m = g . 因为所有状态都属于同 
一个周期类，因此所有的状态 i 都有这一特性,对所有的 i ， ％都是一样的.因为 TTi 
的和为1，所以我们得到对所有的 i 有 7 R = 1/ m . 

例 7.7 中如果 m 是偶数，链的周期是 2. 我们得到的结果表明：％ = 1/ m 确 
实是这个平衡方程组和归一化方程组成的方程组的唯一解. 

23.* 排队问题. 考虑例 7.9 中的排队问题，但是假设信息的到达和发送的概率是取决于排队的 
状态本身.特别地，在每一段时间里，在节点处有 i 个信息包，那么以下三种情况中会有 
一种发生. 

( i ) 一个新信息 到达； 发生的概率是 k 我们假定 i < m 时& > 0且= 0. 

( ii ) 一个现存的信息发送出去，发生的概率是呔，且当 i > 1时，山 > 0;当 i = 0时， 

di = 0 ; 

( iii ) 既没有新信息到达，也没有信息完成传送.发生的概 率是： 当 i > 1时概率为1- 
bi — di ; i = 0时，概率为 1 - 

计算对应马尔可夫链的稳态概率. 

证明 我们引入一条马氏链，状态为0, 1,…， m ， 它们分别对应在节点上存放的信息总 
数目.转换概率图如图 7.23 所示. 

1 — 6。 1 - ftj - d, 1 - &m- 1 - dm -1 1 - d m 


d i ^ d m _i d m 

图 7.23 习题 23 中的转移概率图 
与例 7.9 类似，局部平衡方程 如下： 

TTibi = 7r i+ idi + i, i = 0,1, ••- , m — 1. 

因此我们有 7 Ti + l = pi 7 ri , 其中 




因此对 i = 1, . _ .，m 有 7 Ti = ( p 0 … H )7 T 0. 再由归一化方程 1 = 7 TO + 7 T 1 + - • • + 7 T m ，我 
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们得到 


1 = 7To(l + pO + pOpl + . • • + pO • • • pm-l), 

由此得到 

1 

7To = -- . 

1 + po + popi H - + po … pm-1 

其他的稳态概率是 

Pq … pi-\ . ^ 

^i = - ； - : - : -, 4 = 1 , •■- ,m. 

丄 + po + popi + • • • + Po • • • Pm-1 

24.* 平衡方程之间的相依性.对于前 m - 1个平衡方程 7 T , = Er=i ^ Pkj ,j = 1，…， m _ 1, 
证明将它们相加起来，则能得到最后一个等式 7 T m = 

证明把头 m - 1个平衡方程加起来，我们得到 


j=l j=l k=l 

k=l j=l 

= ^2^ k ( l ~ Pkm ) 
k=l 

= 7T m + ^ TTfe - ^ TTfcPfcm- 
k=l k=l 

这个等式和最后一个平衡方程 7 T m = Er=l ^ Pkm 是等价的. 

2 S / 局部平衡 方程. 我们给出一个非周期的单一常返类的马氏链，假设7^，... ，7 T m 是下面的 
局部平衡和归一化方程组的一组解. 


TUPij = T^jPji, i,j = 1 ,- 


t 7Ti =: 


: = 1 ， . 


( a ) 证明巧 是稳态概率. 

( b ) 利用之间的平均长期转移频率的意义来解释等式 n iPij = - K jPji 的含义. 

( c ) 构造一个例子，使得局部平衡方程不满足稳态概率. 

证明⑷把局部平衡方程 THPij = ■KjPji 对下标 i 相加，得到 

= S J = 1, ■■- , m , 

因此 = 1,... , m 满足平衡方程.所以它们就等于稳态概率. 

( b ) 我们知道 - K iPij 可以解释为从状态 i 到状态 j 的平均长期频率，所以局部平衡方 
程表明从一个状态到另一个状态的转移，其长期平均频率与反方向转移的长期平 
均频率是相同的（这个性质也叫做链的时逆性). 
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( c ) 我们构造有三个状态的一个例子.设状态为1， 2 , 3. 同时令外 2 > 0, p 13 > 0, 
P21 > 0, P 32 > 0,同时其他转换概率均为 0. 这条链有一个非周期的单一常返类. 
此时局部平衡方程不能成立因为1到3的平均转移频率都是正的，但逆转移频率 
的期望值是 0. 

26 . * 抽样马氏链.考虑一个马氏链 X „， 其转移概率是阳，记 ~( n ) 是 n 步转移概率. 

( a ) 证明对所有的 n 彡1以及丨彡1，我们有 

nj(n + 0 = r ik { n ) r k j { l )- 

k=l 

( b ) 假设有一个非周期的单一常返类.我们对这条马氏链所有每隔！个转移取样，由此 

得到过程，其中 y „ = 证明这个取样过程能用一个非周期的单一常返类马 

氏链刻画，而且转移概率为 ^{1). 

( c ) 证明 （ b ) 部分中的马氏链和原过程有同样的稳态概率. 

证明 （ a ) 我们在 X „ 的条件上使用全概率定理.我们得到 

(n + l )= P ( X n+! = j | X 0 = i ) 

P ( X n = fc | X 0 = i ) P { X n+l = j \ X n = k , X Q = i ) 

k=l 

m 

P ( X " = = *)P(^n+! = j\^n = k) 

k=l 

= Enfc ( n ) w ( Z )， 
k=l 

在第三个等式中我们用到了马尔可夫性质. 

( b ) 因为是马尔可夫链，所以，在给定 x !ri 的条件上,那么过程的过去 （fc < to 时 
的状态 Xfc ) 与将来的状态 （fc > Zn 时的状态 Xfc ) 是独立的.这表明给定的 y „， 
过程的过去 ( k < n 时的状态 y fc ) 与其将来 ( k > n 时的状态⑸是独立的.因此 
y„ 有马尔可夫性质.又由对的假设，存在一个时间 n 使得： 对所有的 n ^ n , 
所有的状态 i 以及所有的在 X „ 的单一常返类 ii 中的状态:/，均有 

P ( X n = j | X 0 = i )>0. 

这表明 


P ( K = j \ Y 0 = i )>0, 

对所有的 n ^ n , 所有的 i 以及所有的:/ € ii . 因此过程 K 有一个非周期的单一 
常返类. 

( c ) 过程； ^的 n 步转换概率 rij ( n ) 收敛到稳态概率巧.过程的 n 步转换概率 
形式为 rij ( ln ), 同样收敛到这表明 D 是过程的稳态概率. 

27.* 给定一个非周期的单一常返类马氏链 X „， 考虑一个新的随机量序列，序列在时刻 n 时状 
态为在新链的状态是原链的状态再加上前一个时刻的状态. 
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( a ) 证明新链的稳态概率是 

m =^iPn, 


这里％是原链的稳态概率. 

( b ) 现在设新的马氏链是这样定 义的： 在时刻71的状态为 ( X n ^ k , X n - k+1 ，■-- ， x „：) ，其 
状态和原链的连续步转移建立起联系.将 （ a ) 的结论推广到这个新的马尔可夫链. 
证明 （ a ) 对新链的每一个状态我们有 

P (( X „_ l ! X n ) = ( i , j )) = P ( X n _i = i ) P ( X n = jlXn ^ = i ) = P ( X „_1 = i ) Pij . 

因为马氏链有一个非周期的单一常返类，并且对所有的 i , P ( X n _! = i ) 收敛 
到稳态概率 TTi . 这表明 P (( X n - 1 , X n ) = ( i , j )) 收敛到 7 r iPij , 这同样是 ( i , j ) 的稳 
态概率. 

( b ) 使用乘法法则，我们得到 

P (( X „_ fc , ••- , X n ) = ( i Q , - - - , i k )) = P ( X„- k = * o ) Pi 0 n …仍 k - ih . 

因此，与⑷部分相类似的讨论，状态 （ i 。, …， ifc ) 的稳态概率为 7 T ioPioil • - - Pi k _ lik . 

7.4 节吸收概率和吸收期望时间 

28. 某系有 m 门课，每一学年学生以课程难度从1到 m 进行排名，其中排 m 的最难.但是 
这个排名是完全随 机的. 因此，每一学年任意一门课程的排名的分布列是1，... ， m 上的 
均勻分布（但是，两门课程的难度排名不可能相同).某教授只记住他教过的课程中难度 
最高的排名. 

( a ) 求这个教授记住的排名的马氏链的转移概率. 

( b ) 求常返状态和非常返状态. 

( c ) 给定第一学年他拿到第 i 名课程的条件下，求教授拿到最髙排名课程的期望年数. 
29.* 考虑图 7.24 中的马氏链.稳态概率 如下： 

6 9 6 10 

兀 1 = 豇，^ 2= 31 ! ^ = 31' ^ 4= 31- 


3/5 


2/3 


A 


图 7.24 习题29中的转移概率图 


假设过程在第一次转移前是状态 1. 

( a ) 经过6次转移后过程状态是1的概率是多少？ 

( b ) 求过程重新回到状态1的总转移次数的期望值和方差. 
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( c ) 系统中的转移1 000次之后的状态既不与转移999次后的状态相同，也不与转移 
1001 次后状态相同，求该事件概率的近似值. 

30.* 考虑图 7.25 中的马氏链. 



( a ) 确定非常返状态和常返状态.同样，将常返状态划分为常返类，如果有周期的话，也 
将其指明. 

( b ) 在状态1开始时是否存在稳态概率，如果有，请确定其值. 

( c ) 在状态6开始时是否存在稳态概率，如果有，请确定其值. 

( d ) 假设过程在状态1开始，我们在它到达稳态时开始观察. 

( i ) 在我们观察到第一次转移时，求状态增加1的概率. 

( ii ) 在我们观察到第一次转移状态是增加1的条件下，求观察到过程转移到状态2 
时的条件概率. 

( iii ) 在我们第一次观察到状态变化时，求状态增加1的概率. 

( e ) 假设过程从状态4开始. 

( i ) 对每一个常返类，确定我们最终达到每一类时的概率. 

( ii ) 求过程第一次达到常返类时的转换总次数的期望值. 

31.* 吸收概率.考虑一个马尔可夫链，其状态要么是非常返的，要么是吸收的.固定一个吸 
收状态 S . 证明从状态 i 开始最终达到 s 状态时的概率&是以下方程的唯一解. 
a 3 = 1 , 


a t =0, 对所有的吸收态 


ai ，对所有的非常返状态 （ 

提示： 在证明解的唯一性的时候，采用反 证法： 如果这里有两个解，找到一个满足它们差 
的方程，然后说明这个方程只有零解. 

证明在本书中，通过全概率定理，已经指出％满足这些方程.为了证明唯一性，令知 
是另一组解，再令 <5 i =氐 — 叫.用 A 表示吸收状态集合.由于对所有 j e A 有~ = 0, 
我们得到 m 

s % = ' y'^PijSj = 对所有的非常返状态 i 成立 • 

J = 1 HA 

把这个关系套用 m 次，我们得到 

= 5^ PiJl 53 P -31 J 2 ' ' ' Pim-lJm • 

31^- ^ 含 2 來 A 
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因此 


l^iK J2 … I] - l^ m | 

j 2 ^A j m ^A 

^PiXx^A,-.- ,X m ^A\X 0 = i)-\d jm \ 

《 P(-X^i ^ A, ■■- , X m ^ A\Xq = i) - mM ； |5j |. 

以上关系表明对所有非常返状态 i ， 均有 


这里 


max |^| ^P-max\Sj\, 


f 3 = P ( X 1 ^ A ,---, X m ^ A \ X 0 = i ). 

注意0 < 1，因为不管初始状态是什么，被吸收的概率是正的.因此 max ,-^ |^| = 0, 
或者是对所有的不吸收的 i 有 ch = 对所有的吸收 j 我们有％ =心，所以对所有的 

Z, CL% (X % . 

32- * 多重常返类. 考虑一个有多个常返类的马氏链，当然还有一些非常返状态.假设所有的 

常返类都是非周期的. 

( a ) 对任意非常返状态 i ， 令 ai ㈨ 是从 i 开始到达第 fc 个常返类中状态的概率.推导关 
于 ai { k ) 的方程组. 

( b ) 证明每一个 n 步转换概率 rij (n) 都收敛到一个极限，并讨论如何计算这些极限. 

解 （ a ) 我们引入一条新的只有非常返状态和吸收状态的马 氏链. 非常返状态对应原始 

链的非常返状态，而吸收状态对应于原链的常返类.新链的转移概率表示 如下： 
如果 i , j 是非常返状态，则负 j 如果 i 是非常返状态， fc 对应常返类，则负 

是 i 在原链中到达常返类中所有状态的转移概率的和. 

所求的概率 ai ( k ) 是新链中的吸收概率并由以下公式 给出： 

ai ( k )= p ik + Y 1 PijajW , 对所有的非常返状态 i 成立. 

非常返 

( b ) 如果 i , j 是常返态但不属于同一类， r i ; i ( n ) 总是0.如果 i , j 是常返态且属于同一类， 
考虑由这个常返类的状态所组成的一个新的马尔可夫链.原马尔可夫链的 rij ( n ) 与 
新的马尔可夫链的 rij (n) 是相 同的. 在新的马尔可夫链中， nj (n) 收敛到状态 j ' 的 
稳态概率.如果 j 是非常返状态， rii {n) 收敛到 0. 最后如果 i 是非常返状态 ，:/是 
常返的，则 n ^ n ) 收敛到以下两个概率的乘积： （1) 从 i 开始过程到达 j 所在的常 
返类的 概率； （ 2 )在开始状态在 j 的常返类的条件下，过程到达 j 的稳态概率. 

33- * 平均首次到达时间. 考虑一条单一常返类的马氏链，记 s 是固定的常返状态.证明下列 

方程 

= 0, U = 1 + ^2/ Pijtj , 对所有的 i + s ' 
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是平均首次到达时间满足的方程，且只有唯一解.提示：在证明解的唯一性的时候，利用 
反证法.如果存在两组解，考虑两组解之差，找到使差满足的一组方程.并证明这组方程 
只有零解. 

解记 h 是首次到达 i 的平均时间，利用全期望定理，可以证明它满足题目中的方程组. 
现在只需证明解的唯一性.为了证明唯一性，令&是另一组解.对所有 i # s 

u = i += 1+ 

两者相减，我们得到 

这里 A = & - l 将这个等式连续套用 m 次，得到 

Pi ^ 卩油 … H Pjm-ljm ■ 5 3m- 

jl^S j2 々 jm^S 

因此，对所有的 i / s ， 

l<5i| ^ XI Pi ^ Y, … E Pim-iJm - max 15^1 

31^s 32^s jm^3 

= P(^! ,X m ^s\X 0 =i)- m 严 HI. 

另一方面,我们有 P(X! ^s,...,X m ^s\X 0 = i) <1. 这是因为从任意状态开始 s 能在 
m 步内达到的概率为正.这表明&必须是 0. 

34.* 平均常返时间和平衡方程.考虑一条单一常返类的马氏链，记 s 是固定的常返状态.对 
任意状态 i ， 令 


Pi = Et 在相邻两次访问状态 s 之间，访问状态 i 的次数 1. 


这里规定 p s = 1. 

( a ) 证明对所有的 i ， 我们有 

Pi = ^2/ PkPki - 


( b ) 证明数值 


的总和为1且满足平衡方程，这里 g 是 S 的平均常返时间（从 S 开始第一次回到 
S 的期望转移数). 
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(C) 证明如果 TT!,--- ,7T m 是非负的，满足平衡方程且和为1，则 


TTj = 



若 i 是常返态， 

若 i 是非常返状态. 


这里 g 是 i 的平均常返时间. 

( d ) 证明 （ b ) 部分的分布是满足平衡方程的唯一概率分布. 

注意： 本题不仅仅是提供了满足平衡方程的概率分布的存在性和唯一性的另一种证明，也 
为稳态概率和平均常返时间之间建立了一种直观的联系.主要思路是把整个过程分割成 
“圈”，每当常返状态 S 被访问，那么一个新圈就会开始.状态 S 的稳态概率就可以解释 
为访问状态 S 的长期的期望频率，长期的期望频率与两次连续访问 S 之间的平均步数 
(即平均常返时间）成反比例.参见 （ C ). 进一步地，在某一个圈内，如果一个状态 i 能被 
访问到期望频率是另一个状态 j 的两倍，那么，状态 i 的长期期望频率 7 R 也应该是巧 
的两倍.因此，稳态概率 TTi 应该和在一圈中期望访问次数成比例. 

解 （ a ) 考虑马氏链 X „， 初始状态為= s . 我们首先证明对所有的 i ， 


Pi = P ( X 1 ,Xn-l S,X n = l). 

n=l 

为了验证这个公式，我们首先考虑 i # s 的情况，令 j „ 是随机变量，如果 Xi / 
«,••• ,^n-l ^ S,X n =l 则取值为 1, 否则取 0. 因此在访问状态 S 前访问状态 i 
的次数为 EZlIn - 因此 ，① 

内 = E I 了 " I = 即 "】= 5Z p (Xi / S ， … ， X n -i ♦ s,X n =i). 

Ln=l 」 n=l n=l 

当 i = S ， 对不同值的 n， 事件 

{Xi # s, ••- , X„-i ^ s, X n = s} 

①下面将用到无穷和运算和期望运算的可交换性，现在来证明这个事实.对任意的 fc > 0 ， 

钭 +E[ £ J=X ： E[/ n ] + E[ f J. 

Ln=l 」 Ln=l 」 [n=fc+l J n=l |_ n =fc+l 」 

令 r 是序列 {Xi,x 2 ,- -} 中第一次等于 s 的时刻 . 因此， 

4 E J = E P(^ = t)4 E iu\T = t] < f tP { T = t) . 

)_n=fc+l 」 t=k+2 L n=fc +1 t=fc+2 

既然平均常返时间 ZZi tp (T = t) 是有限的，当 A: — oo 时， ZZk+2 tp ( T = t ) 的极限等于 
0, 从而 E [E^=fc+1 In] - 0. 这样，当 fc — OO 时 

4f>l = 

Ln=l 」 n=l 



构成样本空间的一个分割.因此, 


^ P(Xl ♦ … ,X n _l ^ S,X n = s) = 1 = p s , 

n=l 

就完成了我们声明的证明. 

我们下一步对 n > 2的情况使用全概率公式， 

P(Xi # S, ■ ■ ■ , X n -i ^S,X n =j)= ^ P(Xx # S,*** , X n -2 # 5, X n _i = k)p k i. 
fc 办 


pi — 〉: P (义 1 7^ Sj * ' ' j 1 ^ 5, = *) 

n=l 

= Psi + 〉: P(^l 7 ^ S , ■ • ■ , X n — 1 ^ s , X n = i ) 

n =2 

oo 

= Psi + P(-^l / s, • . . ,Xn-2 ^ s, Xn-1 = k)pki 

n —2 k 參 s 

oo 

= Psi + Pfci P(^1 ^ S , •■- , Xn -2 # s , Xn -1 = fc ) 
fc/s n =2 

= p 8 psi + PfcipA ； 
m 

=^2 pkPki - 

k—l 

( b ) 用 （ a ) 部分建立的关系两边同时除以 C 可得 

沉 i = “ 

fc = l 

这里％ = Pi / tt . 因此 TTi 是这个平衡方程的解.进一步地， 7 R 是非负的，显然 
Y . T=ipi = ts 或者 = 因此（町，…，〜）是一个概率分布. 

( c ) 考一个满足平衡方程的概率分布 (7 T 1, ••- , n m ). 固定一个常返状态 s ，令 G 是 s 
的平均常返时间，并令 ti 是从不是 S 的状态 i 到状态 S 的平均首次到达时间.我 
们将证明 7 r s g = 1. 事实上，我们有 

t*s = ^ + ^2 Psjtj , 

jVs 

ti =1 + ^2 p % jtj , 对任意的 s . 

把这些等式分别乘以％，％，然后相加，我们得到 

^ stl+^TTiti = 1 + 5 Z % 办 

i#s i=l j^s 


运用平衡方程，右边等于 
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l + = 1 + ^2^^ mpij = 1 + 53^7Tj. 

<=1 i^a j^s i=l j^ s 

结合最后两个等式，我们得到 7 T S G = 1. 

因为概率分布 （ 7U，■■• ,7r m ) 满足平衡方程,如果初始状态 X a 是根据这个分布来选 
• 取的， x„ 的分布将与 X 0 具有相同的分布.如果过程是从常返状态 i 开始的 ，当 
n ^ oo 时， X „ 在此状态的概率趋于 0. 这表明我们必须有％ = 0. 

( d ) ( b ) 部分表明至少存在一个概率分布满足平衡方程 .( c ) 部分表明只有一个这样的概 
率分布. 

35.* 马尔可夫链的大数 定律. 考虑一个有限状态的马尔可夫链，只有一个常返类，且是非周期 
的.固定状态 s , 定义 U 为第 fc 次访问状态 s 的时间， K 为前 n 次转移时，访问 s 的 
的总次数. 

( a ) 证明： Y k / k 以概率1收敛到状态 s 的平均常返时间 t :. 

( b ) 证明： V n / n 以概率1收敛到 1 /C 

( c ) 建立 V n / n 的极限与 S 的稳态概率之间的关系. 

解 （ a ) 固定初始状态 i ， 可能与 s 不同.因此随机变量 n +1 - y fe , fc > 1对应于相邻 
两次访问 s 的时间间隔.由马尔可夫性质（给定当前状态，未来与过去独立)，过程 
在回访 S 时相当于重新开始，所以随机变量 y fc+1 - Y k 是相互独立、同分布的随机 
变量,而且均值等于平均常返时间 c 运用大数定律，以概率1地，有 




( b ) 首先我们将固定样本空间（马尔可夫链的所有轨道的集合）的一个轨道来论证.记 
U 和 K 的取值分别为许和进一步地,根据结论 （ a ), 假设序列 y k / k 收敛到 
C 而且具有这种性质的轨道集合的概率为 1. 现在取定这样的时间 n : 位于第 fc 次 
访问 s 的时间和第 fc + 1次访问 s 的时间之间，即 


Vk^n< j/fc+i. 


对于这样的 n ， 叫 = fc ， 我们有 


从而 


Vk+1 n y k 


注意 
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lim — = lim . i im = lim — = 

k—^oo yfc+1 k—^oo yfc+1 k—*oo AC + 1 fe^oo 


n 


令 n 趋于无穷大，则满足条件讲< n < 讲 +1 的 fc 也必然趋于无穷大.序列 v n /n 
介于两个都趋于 1/ C 的序列之间，因此序列 Vn / n 也同样趋于极限 1/ t ：. 而这个性 
质对于概率为1的轨道集合中的任一个轨道都成立,故可以得出 V n / n 以概率1收 
敛到 1/ K . 

( c ) 在习题35中，已经证明了 1/ t ： =7 r s . 这说明了 V n / n 以概率1收敛到 tt s _ 注解： 
人们也试图使用另一种方法来证明 V n / n 以概率1收敛到 7 T S . 方法如 下：由 （ b ) 知 
道 Vn / n 收敛，又 E [ V n / n ] 收敛到 7 T a (参见 7.3 节中的稳态概率之长期期望频率的 
解释)，故 V n / n 以概率1收敛到％.但是这种推导方法是不对的.这是因为一个随 
机变量序列 K 以概率1收敛到一个常数，而序列的期望序列却有可能收敛到另一 
个常数.例子如下.设 X 是单位区间[0，1]内的均匀分布随机变量.定义 

y = fo , 当 X > l/n 时， 

" _ \ n , 当 X < 1 /n 时. 

只要 x 非零（概率1发生)，则序列收敛到 o _ 另一方面，可以验证， 

E[y„] = P(X < l / n ) E [ y„|X < 1/ n ] = ^ •号 =•， 对所有的打都成立 • 

7.5 节连续时间的马氏链 

36. —名修理工人需要修理一套有 m 台相同机器的设备.修理损坏机器的时间为指数分布， 
均值为 1/ A . 机器启动后正常工作直到损坏的时间也是随机变量，其分布为一指数分布， 
均值为 1/ A *. 损坏和修理时间是相互独立的. 

( a ) 求所有机器都处于修理状态的稳态概率. 

( b ) 在稳态情况下，计算机器处于工作状态的平均台数 • 

37. 空出租车路过某路口的规律是一个泊松过程，通过的车辆数服从强度为每分钟 2 辆的泊 
松分布.乘客达到路口的过程也是泊松过程，均值为每分钟1人.而且如果前面只有少于 
4 名乘客，乘客就会等待出 租车； 否则他们就会离开而不回来.佩涅在一给定时间到达该 
路口.假设过程进入稳态，求出她在加入等待队列条件下的期望等待时间. 

38. m 个用户共用一个电脑系统.用户有两种状态，一种是“思考状态”，持续时间为独立的 
指数分布,参数为 A ， 另一种是“活跃模式”，需要先递交一份服务请求.服务器一次只能 
接收一种请求，且在完成服务之前不会接收其他用户要求.服务请求的时间为独立的指 
数分布随机变量，参数为 M ， 而且与用户的思考时间也是独立的.建立一条马氏链，求出 
等待请求用户个数的稳态分布（包括正在受理的服务). 

39.* 考虑一个连续时间马氏链，其转移 率为％ 对所有的 i 相同.假设过程只有一个常返类. 

( a ) 试解释为什么转移时间序列 K 是泊松过程 • 

( b ) 证明马尔可夫链 X ⑺的稳态概率和嵌入马氏链 X n 的稳态概率是一样的. 

解 （ a ) 用 1 /表示转移率 K 的共同值.序列是独立指数分布时间区间序列，参数为 
因此它们能和到达时间联系起来，那也是泊松过程，强度为 Z 



( b ) 这条连续时间链的平衡和归一化方程组为 
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i q i k = XI 3 = 1 r 

k^j 

1 =^7 Tfc . 


通过关系式办 fc = U Pjki 约掉公共因子 K 这一组等式可写为 


^3 X ] P 3 k = 5 Z ㈣幻， j = 丄， … 
^3 k^j 

l=X^7T fc . 


于是有 E^jPjk = l _ Pjj , 所以上述等式中的平衡方程组可以写为 


— p ： u 、 = y^^kPkj, *?_ = 1 ， - 

k^j 


或者 


^3 = ^2 卿 ㈣ ， j = 1, _ • • ， m . 
k=l 

这就是嵌入马氏链的平衡 方程. 因为它是非周期的单一常返类，所以平衡方程只有 
唯一解•因此巧也是这条嵌入马氏链的稳态概率. 
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统计推断是从观测数据推断未知变量或未知模型的有关信息的 过程. 本章和 
第9章旨在： 

( a ) 评价统计学中两种主要方法（贝叶斯统计推断和经典统计推断）的优缺点， 
区别和类似 之处； 

( b ) 介绍统计推断的主要内容（参数估计、假设经验和显著性检 验)； 

( c ) 讨论统计学中最重要的方法（最大后验概率准则，最小均方估计，最大似然 
估计，回归，似然比检验,等 等)； 

( d ) 举例说明如何运用理论. 

1. 概率与统计 

统计推断与概率理论在许多重要方面存在不同.概率论是建立在第1章公理 
的基础上的自我完善的数学课题.在概率推理中，我们假设有一个完整的特定概率 
模型满足这些概率公理.然后运用数学方法对这个概率模型进行量化，以及回答感 
兴趣的问题.特别地，一些模棱两可的问题只有唯一的正确答案，即使这个答案有 
时也很难发现.概率模型从本质上看也无需与实际相一致（虽然模型有用会更好一 
些) • 

统计学却不是这种情况，可以说统计学是艺术的一部分.对一个具体的问题， 
存在很多合理的方法，可得出不同的结论.一般而言，除非人们可对所研究的问题 
施加一些假设或者附加约束条件,在这些条件下进行推断，得到“理想”的结论，否 
则没有一个绝对的准则来选择“最好”的方法.比如，只知道股票市场在最近5年 
回报率的历史数据，就不会有一个“最好”的方法来预测下一年的回报率. 

所以人们把寻找“正确”的方法局限在能得到一些理想的性质的方法上，比如 
当数据的样本量在无穷大的情况下能做出正确的推断.判断一种方法优于其他方 
法可以考虑如下几个 因素： 性质优良，过去的经验，共同的观点，以及统计学家对一 
种特定方法解决一类特殊的问题方面形成的共识.我们将重点介绍一些最流行的 
方法，并介绍对它们进行分析和比较的主要方法. 

2. 贝叶斯统计与经典统计 

在统计邻域，有两种突出但对应的思想 学派： 贝叶斯学派和经典学派（也称频 
率学派).他们之间最重要的区别就是如何看待未知模型或者变量.贝叶斯学派的 
观点是将其看成是已知分布的随机变量，而经典统计学派的观点是将其看成未知的 
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待估计的量. 

贝叶斯方法主要是想将统计领域拉回到概率论的王国里，使得每个问题都只有 
唯一的 答案. 特别地，当人们欲对未知模型进行推断时，贝叶斯方法将该模型看成 
是随机地从已知的一类模型中选出 来的. 处理方法是引入一个随机变量 e 来刻画 
该模型，然后构造一个先验概率分布 Pe (0). 在已知 数据; E 的情况下，人们原则上使 
用贝叶斯公式来推导后验概率分布 Pe | x (0 卜).这样就抓住了 0：能提供关于0的所 
有信息. 

相反，经典统计方法将未知参数0视为常数，但是未知就需要估计.然后经典 
统计的目标就是提出参数0的估计方法，且保证具有一些性质.本书介绍一个重要 
的概念.它与本书介绍的其他方法中使用的概念的区 别是： 经典方法处理的不是一 
个概率模型,而是有多个待选的概率模型，每个标记为 e 的一个可能值. 

两个学派的争论已经持续一个世纪了，经常争论的是哲学思想.在两派的争论 
过程中，每派都构造一些例子来说明对方学派的方法有时会得到不合理的，或者不 
吸引人的结论.我们简短地回顾两个学派争论的观点. 

假设我们要通过噪声实验的手段来测量一个物理常数，比如电子的质量.经典 
统计学家认为电子的质量尽管未知，但也只是一个常数，所以不能把它看成随机变 
量.而贝叶斯统计学家却给它一个先验分布，来反映人们对电子质量的已有知识. 
比如，如果我们已经从历史实验中获知电子质量的大概范围，则可以将先验分布集 
中在那个范围内. 

经典学派统计学家经常反对这种挑选一个特定先验的随意性.贝叶斯统计学 
家反驳说，任何统计推断往往隐含着一些 先验. 进一步地，在某些例子中，先验分布 
如果是某个特殊选定的分布，经典方法实质上是与贝叶斯方法等价的.通过将所有 
的假设都以先验的形式放在一起，贝叶斯统计学家主张将这些假设公开的，并认为 
它们是经得起推敲的. 

最后，从实际的角度 考虑. 在许多情况下，贝叶斯方法在计算方面很棘手，比如 
需要计算多维的积分 • 另一方面，随着快速计算逐渐为人们所用，贝叶斯统计学派 
的大量最新研究成果就集中在如何使贝叶斯方法具有可行性上. 

3. 模型推断和变量推断 

@计推断的应用主要有两种 类型： 模型推断和变量推断.在模型推断中，研究 
的目标是物理现象或过程,基于得到的数据为这些物理现象或过程构造或者验证一 
个模型（比如行星运行的是否为椭圆轨道).利用这样的模型就可以对未来进行预 
测，或者推知许多未知的原因.在变量推断中，人们使用许多相关的，或者带有噪声 
的信息估计一个或者多个变量值（比如，若给定一些 GPS 的信息，那么我们现在的 
位置在什么地方). 

模型推断与变量推断的区别不是很明显 • 比如，将模型描述为一组变量的形式， 
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我们就可以将模型推断的问题转换成变量推断的问题.在很多情况下，我们将不强 
调它们的区别，这是因为相同的方法可以同时使用在这两种类型的推断中- 

在有些应用中，需要同时考虑这两种推断 问题. 比如，我们收集了一些原始数 
据，使用数据来建立一个模型，然后利用模型去推知相关变量值- 
例 8.1 (噪声信道）发送端发送一串二进制信号 A e {0,1}，接收端观测到 

Xi — aSi + Wi , i = 1，…， n , 

其中恥 是零均值的正态随机变量（反映信道的噪声)， a 是实数（用于刻画信道的 
衰减率).在模型推断中， a 是未知的.发送端发送一组测试信号 Sl ， s 2 , …，〜,接收 
端是知道发送端发送的信号的.现在的任务是基于观测值 Xx ,..- 接收信号方 

欲估计 a 的值.这就是模型推断的 任务： 建立这个信道的模型. 

另一个方面，在变量推断中， a 是假设已知的（可能是因为如上利用测试数据 
推断出来了).接收方观测到数据…，后，欲估计 Sl ，…， 的值. 这就是变 
量推断的 任务： 确定 s lr " ， Sn 的值. □ 

4. 统计推断问题的简单分类 

这里我们描述一些不同类型的统计推断问题.在估计问题中，模型是完全确定 
的，只是有一些未知的，可能是多维的参数0，需要去估计.参数既可以看成随机变 
量（贝叶斯方法)，也可以看成是未知常数（经典方法).通常的目标就是得到0的估 
计,使得它在某种意义上与真实值接近.比如 

( a ) 在例 8.1 噪声信道问题中，使用测试序列知识和观测值去估计 a ; 

( b ) 使用民意测验数据，估计一个选举地方内选民支持候选人人而反对候选 
人 S 的比例； 

( c ) 基于历史股票市场数据，估计一个特定股票的价格每日走势的均值和 方差; 
在二 重假设检验问 题中，从两个假设出发，运用得到的数据去判断这两个中哪 

一个是正确的.比如 

( a ) 在例 8.1 噪声信道问题中，使用 a 的知识和不去判断〜是0还是1; 

( b ) 给定一个带有噪声的图片，判断图片中是否 有人； 

( c ) 给定有两种不同的医疗处理方法的临床实验数据，判断哪种疗法比较有效. 
更一般地，在 m 重假设检验 问题中，有 m 个对应的假设.判断一种方法的好 

坏的依据是该方法做出错误结论的概率大小.当然，贝叶斯方法和经典方法都是可 
以利用的. 

在本章中，我们重点介绍贝叶斯估计问题，但也讨论假设检验问题.在第 9 章 
中，除了讨论估计问题外，我们还要讨论更广的假设检验问题.我们只是介绍性的 
讨论,远远不能满足实际中存在的统计推断问题的需要.为说明实际问题的广泛性， 
考虑具有形式 y = g ( X ) + W 的模型，该模型涉及两个随机变量 X 和 F ， 其中 W 
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是零均值噪声， S 是需要估计的未知函数.这类问题，未知目标（比如这里的函数 5) 
是不能表述为固定数目的参数，称为非 参数统 计推断问题，就不在本书考虑范围之 
内了 • 


本章中的主要术语，问题以及方法 

• 贝叶斯 统计将未知参数视为已知先验分布的随机变量. 

• 在 参数估 计中，对参数进行估计，使得在某种概率意义下估计接近真实值. 

• 在 假设检 验中，未知参数根据对应的假设可能取有限个值.人们去选择其 

中一个假设，目标是使犯错误的概率很小. 

• 贝叶斯推断的主要 方法： 

( a ) 最大后验概率 （ MAP ) 准则： 在可能的参数/假设的取值范围内，选 
择一个在给定数据下，具有最大化条件概率/后验概率的值（参见 8.2 
节)； 

( b ) 最小均方 （ LMS ) 估计： 选择数据的一个估计量或者函数，使得参数 
与估计之间的均方误差达到最小（参见 8.3 节)； 

( c ) 线性最小均方 （ LMS ) 估计： 选择数据的一个线性函数，使得参数与 
估计之间的均方误差达到最小（参见 8.4 节). 这可能会得到更高的均 
方误差，但是计算简单，因为计算过程只依赖于相应随机变量的均值、 
方差和协方差. 


8.1 贝叶斯推断与后验分布 

在贝叶斯推断中，感兴趣的未知量记为©，视其为一个随机变量，或者随机变 
量的有限 集合. 这里0代表物理量，比如车辆的位置和速度，也可代表一个概率模 
型的未知参数集合.简单而言，在没有明确标明的情况下， © 视为一个简单的随机 
变量. 

我们的目标就是基于观测到相关随机变量的值 x = ( x lr -., x n ) 来提取 e 
的信息.我们称 x =(右, ■■■ , x n ) 为观测值,测量值，或者观测向量.为此，假定我 
们知道 e 和 x 的联合分布.等价地，假定我们已知 

( a ) 先验分布 p e 或者 / e ， 这要看0是离散的，还是连 续的； 

( b ) 条件分布 p xl& 或者 f x{6 , 同样这也要看 © 是离散的，还是连续的. 

一旦 X 的一个特定值 a ; 观测到后，贝叶斯推断问题的完整答案就由 © 的后 

验分布 Pe \ x ( e \ x ) 或者 f elx ( 0 \ x ) 来决定，见图 8 . 1 . 这个分布可以使用贝叶斯法则 
来计算.在已经得知的信息下，它抓住了关于 e 的一切信息，从而成为了未来分析 
的起点. 
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图 8.1 贝叶斯推断模型的总结.起点是0和观测 X 的联合分布，或者等价的说法是先验分 
布和条件分布列/密度函数.已知 X 的观测值 x 后，运用贝叶斯法则计算后验分布 
列/密度函数.后验分布可用来回答更多的推断问题.比如计算 e 的估计，相关的概 
率和误差方差 


贝叶斯推断的总结 

• 起点是未知随机变量 e 的先验分布 Pe 或者 / e . 

• 得到观测向量 X 的 p xl e 或者 / x |0. 

• 一旦 X 的一个特定值: r 观测到后，运用见叶斯法则计算 e 的后验分布. 


在此我们提醒大家注意 的是： 针对 e 和 X 的离散性和连续性的不同组合，贝 
叶斯法则有4种不同的形式.现在我们引用下来，便于使用.然而，4种形式本质 
上是类似的，我们只须把最简单的形式（所有变量都是离散的）理解清楚，对其余情 
况只须做一个概念的对换.在遇到连续变量时，我们只须将分布列替换成密度函数， 
把求和换成积分.进一步地,如果 e 是多维的话，相应的求和或者积分就是多重求 
和或者多维积分. 


贝叶斯法则的4种形式 

• e 离散， X 离散: 


© 离散， X 连续 


• e 连续， x 离散: 

• © 连续， x 连续: 


_ _ Pe(0)px\&(x\6) 

e|X _ T,6'P0( e， )Px\e(x\O')' 

_ 、 P@{0)fx\e{x\6) 

卽 ⑴- J ： e'Pemfx\e(x\e>y 

f 編 — f@(Q)px\ & (x\e) 
felxi 1 )_ "e ( ，增 (f )，• 

f 編 - fs(e)f x[ e(x\e) 

/ 0 | x( I ) ~ J M gr )fxle{xmde r 
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下面举一些例子来说明如何计算后验分布. 

例8. 2 罗密欧和朱丽叶开始约会.但是朱丽叶在任何约会中都可能迟到，迟到时 
间记为随机变量 X ，服从区间[0，0]上的均勻分布，参数0是未知的，是随机变量0 
的一个值_ e 是在0和1小时之间均勻分布.假设朱丽叶在第一次约会中迟到了 a ；， 
那么罗密欧如何利用这个信息去更新0的分布. 

这里先验密度函数是 

h (❹)= 

以及观测值的条件密度函数是 


1，若 
0，其他， 


fx\e(x\0) = 


1/0， 

0， 


若0 < a ; < (9, 
其他. 


注意， fe(0)fx\e(x\0) 只有当0彡 : c < 0彡1时非零，运用贝叶斯法则 可得： 对任意 
的 ze [0， l ]， 后验密度函数是 

f Mi— _ fe(S)fx\e(x\0) 1/6 1 ^ 

Q|X ~ fo fe ( e 0 fx \ e ( xmd 6' = 知 0' = Mlog ^， 当 37 < 0 < 工， 

且当 6 <x 或者 0 > 1 时， f Q \ x { e \ x ) = 0. 

现在考虑前 n 次约会情况所引起的 变化. 假设朱丽叶迟到的时间记为 Xi ,-. - , 
x n , 在给定 & = e 条件下，它是区间 [0,0] 的均勻分布，且条件独立.记 x = 
( Xi , ■■- , X n ), x = ( xi , ■• - , x n ). 类似于 n = 1 的情形，我们有 


fx\e{x\d) = 


1/俨, 
0， 


若元< 0 < 1, 
其他， 


其中$ = max { Xl , ■■- , x n }. 后验密度函数是 


f@\x(0\x ) = 


c ( x )/ e n , 

0， 


若 X < 0 < 1 ， 
其他， 


其中 C ($) 是归一化常数,只依赖于 




□ 
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例 8.3 (正态随机变量公共均值的推断）设随机变量观测值 X = ，… , X n ), 
具有相同的均值，但是均值未知，需要估计.假设给定均值的条件下，是正态的， 
且相互独立,方差分别为 - , al 使用贝叶斯方法,我们对均值进行建模，设足 
的公共均值为随机变量 e ， 且己知其先验 分布. 具体而言，我们假设随机变量 e 的 
分布为正态分布，均值已知为 吻， 方差为已知 

为将来引用，注意到我们的模型等价于下列形式 

Xi = e + Wi, i = l ， ... ， n ， 

其中随机变量相互独立，且是正态的，均值和方差均已知.特别地， 
对任意的0， 

E[Wi] = E[Wi|0 = (9] = 0, V ar(Wi) = var(Xi|© = 8 )=^. 

这类模型在许多工程应用中非常普遍,工程中一个未知量往往有若干个独立的测量 
值.根据假设，我们有 

/0(0)= Cl - exp |-^^}, 

以及 

fx\e{x\6) = c 2 - exp|-^^-| • ■ • expj- 

这里 Ci , C 2 是归一化常数，不依赖于 0. 运用贝叶斯法则 

r 、 fe(e)fx\e(x\e) 

/e|x( •) - Jfe(e')fxis(x\e>)de'- 

注意，分子项的形式是 



通过代数运算，对指数的肩膀上的求和部分进行配平方，可以算出分子项的形式是 



= few ； v = T^wr 


其中 
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d 是常数，只依赖于〜，不依赖于 0. 贝叶斯法则公式中的分母项也不依赖于0,所 
以我们可以得出结论，后验密度函数的形式是 

f@\x(6\x) = a- exp ! 』:— |>， 

a = 1/\/^是归一化常数，只依赖于; Ti , 不依赖于 0. 这就是正态密度函数的形式， 
所以后验密度函数是正态的，均值是 m ， 方差是 v. 

特殊情况下，假设都相等，等于 < r 2 , 则0的后验密度函数是正 
态的，均值和方差分别是 

n + 1 n + 1 

在这种情况下，先验 均值勒 扮演着一个观测值的作用，而且对 © 的后验均值发挥 
相同的作用.同时注意到 e 后验密度的标准差在观测样本量增大时，趋于0,速度 
大致是 l/^/n. 

如果方差 W 不相同时，后验均值 m 仍是 每个而 的加权平均，方差越小，对 m 
的权重就越大. □ 

上例有一个显著的性质，那就是0的后验分布与先验分布是同一个分布族，比 
如说正态分布族.这个性质非常吸引人，原因有两个. 

( a ) 后验分布的特征只有两 个数： 均值和方差. 

( b ) 后验分布的解形式可以使用有效的递归推断.假设已经获得观测值 Xx ,.-- , 
X n , 且下一个观测值 X „ +1 也得到了.那么我们不必从头开始计算后验分布，而是我 
们可以将/ 0 闪, ... 作为先验，然后运用新观测值运算得到新后验 / 0 | Xl ,.. ，^ +1 . 
我们可以使用例 8 . 3 的答案来求这个后验.显然（当然可以正式推导 )， 0 ^新’后"验 
分布也是正态的，均值是 

(m/v) + {x n+1 /crl +1 ) 

{IJv) + ' 

方差是 


{i/v) + {i/^y 

其中 m 和 i ; 分别是后验 f Q \ Xl ，.: ,x n 的均值和方差 • 

但是后验分布与先验分布属于同一分布族的情形不是非常普遍.除了正态分布 
族外，另外有名的例子是投掷硬币的伯努利实验和二项分布. 

例8. 4 (不均匀硬币的贝塔先验）欲估计一个非均勻硬币投掷时正面朝上的概率， 
记为0.将0看成随机变量0的一个值，0的先验密度为 / e . 现在考虑 n 次独立 
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的投掷实验，记 x 为观测到的正面朝上的总次数.运用贝叶斯法则， e 的后验密度 
函 数是： 对任意的 ee [0,1]， 

fe\x(0\k) = cf e (e)p xle (k\e) = df e (6 卿- e) n ~ k , 

其中 c 是归一化常数（不依赖于 0), 且 d = c (=). 

现在假设先验是贝塔分布，参数是正整数 a > 0和/? > 0,即 

若0<0<1， 

fe(0) = \^P) 

(0, 其他， 

其中 B(a,(3) 是归一化常数，就是有名的贝塔函数，即 

最后一个等式可以通过分部积分的方法，或者使用概率方法（第 3 章习题犯）计算 
得到.则 e 的后验密度函数的形式是 

fe\x(e\k) = O^e^i, 

所以也是贝塔密度函数，参数是 

a = k-\-a, p’ = n- k + P. 

特殊情形是 a = 13 = 1, 即先验 / e 是 [0,1] 的均匀分布密度.在这种情形下，后验 
密度也是贝塔密度,参数是 fc + 1和 n _ fc + L 

贝塔密度常常在统计推断的实际应用中，而且具有很有趣的性质.特别地，如 
果0是服从参数为 a 和的贝塔分布时，它的 m 阶矩是 

E[0 m ] =— f 1 ef-^e 

B{a,p) J Q 

__ a(a + 1) … （ a ; + m — 1) _ □ 

(a + /3)(a + /? + 1) … （ a: + /? + m — 1) 

前面几个例子都是讨论 e 是连续的情形，而且是典型的参数估计问题.下面这 
个例子是离散情形，是典型的两重假设检验问题. 
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例8. 5 (垃圾邮件过虑）一封电子邮件不是垃圾邮件就是正常邮件.我们引入参 
数0,取值为1和 2 ,分别代表垃圾和正常，各自取值的概率分别为 Pe ⑴, Pe ⑵. 
^ 代表一些特殊的词（或者词的组合）形成的集合，它们出现后就表 

示邮件是垃圾的.对每个 记不 是伯努利随机变量，来定义％是否出现在信息 
中，即当叫出现时，不=1，否则足= 0. 假设条件概率 狀 |0 (而|1)和^| 0 (^|2), 
A = 0,1是已知的.简单起见，假设在给定 ㊀ 的条件下，随机变量 A ，…，是相 
互独立的. 

现在我们运用贝叶斯法则来计算垃圾邮件和正常邮件的后验概率.即 
P(e = … 人 、 ) = m=1 ， 2 . 

这两个后验概率可以用于将邮件分类为垃圾还是正常，其计算方法将在后面继续讨 


多参数问题 


目前为止我们只讨论单个未知参数的情形.多个未知参数的情形也是完全类 
似的_下一个例子讨论的是两个参数的问题. 

例 8 . 6 (传感器网络的定位）假设有 n 个声敏元件，分布在我们关注的一个地理 
区域内.设 f i 个声敏元件的坐标是 ( ai ,bi). 一辆发送已知声音信号的车辆在这个 
区域内，坐标为0 = (01, 0 2 ),但是未知.每个声敏元件探测这个车辆（即捕捉到这 
个车辆的信号）的概率依赖于它们之间的距离.观测数据是哪些声敏元件探测到车 
辆，哪些没有探测到，目标就是尽可能地找到车辆所在的位置，见图 8 . 2 . 



先验密度 / e 的意思是我们基于历史观测数据对这个车辆的位置的大致认识. 
简单起见，假设和0 2 是相互独立的正态随机变量，均值为0、方差为1.所以 

fe{ei,e 2 ) = ^- (el+el)/2 . 
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当第 i 个声敏元件探测到车辆时，令不=1，否则足= 0. 由于信号强度随目 
标与声敏元件之间的距离的增加而衰变，我们假定捕捉概率与声敏元件与车辆之间 
的距离 d i (e 1 ,e 2 ) 是呈指数递降的.具体说，我们使用模型 

P(Xi = 1|0 = (01,02))=^10(11^1^2)= e- 邮 1 此)， 

其中 d ?(0 i ,0 2 ) = (ai - e 1 ) 2 + (bi - e 2 f. 进一步假设在给定车辆位置 0 的条件下， 
Xi 是彼此独立的. 

定义 S 为 A = 1的传感器集合.现在计算后验密度 函数. 计算 / e | x (0 W 的 
贝叶斯公式中的分子是 

fe(e)px\&(x\e) = n e _ di ( 01 ’ 02 ) IJQ - e- d ^ 9 ^), 

ZK ies i^s 

其中: c 是 n 维向量（町，…，〜)，其第 i 个元素〜当 i e S 时，心=1，否则而 = 0. 
fe\x(e\x) 的表达式中的分母就是对分子表达式的一个二重积分,其积分变量分别 
为01和 02. 口 

例 8.6 表明，不管0是一个或者多个变量向量，计算后验密度 fe\x(e\x ) 的原 
则是一样的.但是，即使原则上后验密度函数是通过使用贝叶斯法则运算得到，但 
是一般而言，不能指望后验密度有明确的表达式.实际上，可能需要进行数字计算. 
通常，运用贝叶斯公式计算分母的归一化常数很具有挑战性.在例 8.6 中，分母是 
对心和0 2 的双重积分，数字计算具有可行性.但是如果 e 是高维的话，那么数字 
积分就非常难了.现在已经有成熟的近似计算方法，即可以运用随机抽样的方法求 
近似积分，这些内容已不在本书的讨论范围之内了. 

当 e = (©!,-•• ,0 ro ) 是多维的时候，我们有时只对 e 其中一个元素，比如说 
01,感兴趣.这样就集中在计算 / eil x ( 心 k )， 即 e : 的边缘后验分布，计算公式是 

/eilxC^lk) = j ' J ■ ■ ■ , ^m\x)d02 - - - dd m . 

然而，当0是高维的时候，计算这个多重积分是非常困难的. 

8.2 点估计，假设检验，最大后验概率准则 

本节介绍一种简单但是普遍的贝叶斯推断方法，并将之应用在点估计和假设检 
验问题中.给定观测值; E ， 选择0的一个取值,记为象使得后验分布列 Pe\x(0\x) 
达到最大（若0连续则为后验分布密度 f @l x(0\x))： 

0 = a,Tgma,xp @ \x(0\x), (0 离散)， 
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0 = aTgmaxf @ lx ( e \ x ), (0 连续). 
这就是最大后验概率准则（见图 8.3). 


图 8 . 3 最大后验准则用于推断的说明，左边是连续型变量，右边是离散型变量 

当 e 是离散型变量，最大后验概率准则有一条重要的最优 性质： 由于彡是 e 
最有可能的取值，它使对任意给定的 X 有最大的概率做出正确的决定.这也说明最 
大后验概率准则使总体（平均了所有 z 可能的取值）做出正确决定的概率达到最大 
(在所有决策准则中).等价地，最大后验概率准则使得做出错误决定的概率达到最 
小（对于每个 z 的观测值，也针对总体错误的概率)① 

在贝叶斯准则下的后验分布有一条计算上的 捷径： 对所有的 e 分母都一样， 
只由： c 的观测值决定.因此，为了让后验概率达到最大，在 e 和 x 都离散的情况 
下，只须寻找0使得 pe ( e ) P xie ( x \ e ) 的数值达到最大，在 e 或 x 连续的时候也有 
类似的表达.这里没有必要去计算分母. 

最大后验概率准则 

•给定$的观测值，最大后验准则是指在所有的 e 中寻找6使得后验分布 
Pe\x{e\x){^ 0离散）或 f elx (e\x)(^ 0连续）达到最大值. 

• 等价地，最大后验准则是在所有61中找6使得下面函数达到 最大： 
pe ( e ) p X \ e ( x \ e ) (e 和 X 均离散)， 


①为了更准确地表述这一问题，我们考虑一个基于0：的观测值的一般决策准则，即选择一个0的取 
值._将这个一般的决策准则记为 3 ( a :) . 同时，记最大后验准则为 SMAP (.) .用/和 J MAP 分别 
表示相应的伯努利随机变量，当一般决策准则（相应的，最大后验准则）正确的时候，/的取值为 
1( 相应地， / map 的取值为 1). 因此事件/ = 1和 g{X) = © 是一样的，对于 ffMA p 也是如此. 
根据最大后验概率准则的定义，对于每个可能实现的 X, 

E[/|X] = P(g(X) = 0|X) 《 P(9MAP(X) = 0|X) = E[/ MAP |X]. 

根据条件期望的性质，得到 E[/] <E[J MAP ], 即 

P (s(^) = 0) 《 P(9MAp(^) = @). 

因此，在所有的决策准则中，最大后验准则使得做正确决定的总概率达到最大.注意这里讨论的 e 
是离散的.当 X = a ; 时，若 e 连续，则在任何准则下做出正确决定的概率都是 0. 
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Pe(0)fx\e(x\e) (© 离散 ，X 连续)， 

M 0) px \ e ( x \ e ) (0 连续 ，X 离散)， 
fe (0) fx \ e ( x \ e ) (0 和 X 均连续). 

• 如果0只取有限个数值，则最大后验概率准则（在所有决策准则中）使得 
选择错误假设的概率达到最小.无论是在给定观测值 x 的情况下，犯错误 
的条件概率，或者是犯错误的无条件概率，这个准则都是正确的. 


下面我们通过回顾前面的几个例子来解释最大后验概率分布准则_ 

例 8.3( 续）设 e 是正态随机变量，均值为卻、方差 <7。 2 •给定 © 的取值为0，观 
察到一些随机变量 X = (Xi ，… , X n ), 它的分量是相互独立的正态随机变量，均值 
e 、 方差分别为 al ■■- , al 已经发现后验概率分布密度是均值为 m, 方差为 t; 的正 
态分布，其中 m 和的表达式为 

m = E[0|x = x] = few' u = var(e|x = " ) = S^W 

由于正态分布密度函数在均值处取最大值,最大后验概率估计为彡= 

例 8.5( 续）在这个例子中，参数 © 取值为1和 2 ,分别代表垃圾邮件和正常邮件， 
各自取值的概率分别为 p e ( l ), pe (2). Xi 是伯努利随机变量，用于定义词汇叫是 
否出现在信息中，即当叫出现时，不=1，否则不= 0. 我们已经计算得到垃圾邮 
件和正常邮件的后验概率，即 


P (@ = m\Xx = xi , ■ - * , X n = x n ) = 


P ® ( m ) U 7 =i PXii & jxj \ m ) 


m = 1,2. 


现在我们想根据响应向量 ( x lr --, x n ) 来判断一封邮件是垃圾还是正常的邮件•最 
大后验概率准则是这样判断的，如果下面式子成立，则判断该邮件为垃圾 邮件： 


P (0 = llXi = Id ，… •， X „ = ; r „) > P (0 二 2 \Xi = xi , ■■- , X n = x n ), 


或等价地 

n n 

p©(i) > : p©( 2 ) np^i©(^i2)- 

i=l 

8.2.1 点估计 

在一个估计问题中，给定 x 的观测值％后验分布抓住了 $提供的所有相关 
信息.而另一方面，我们对概括了后验性质的某些量很感 兴趣. 比如，点估计是一个 
数值，它表达了我们关于 e 取值的最好 猜测. 
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先来介绍一下有关估计的概念和术语.为简单起见，假设0是一维的，但是这 
里讨论的方法同样适用于多维.估计指的是在得到实际观察值 a ; 的基础上我们选 
择的4的数值的数值是由观测值 a : 的某些函数 s 决定的，即6 = g ( x ). 随机变 
量台= g ( X ) 也称为估计，之所以说白是随机变量是因为估计的结果由随机的观 
测值所决定. 

利用不同的函数3可以构造不同的估计量，其中总有一些会是比较好的估计. 
举一个极端的例子，考虑函数 5 (: r ) 三 0. 估计量白= 0根本没有利用到数据，因此 
并不是一个好的估计目前有两个最流行的估计量. 

⑷最大后验概率估计量.观测到 z , 在所有的0中选6使得后验分布达到最 
大，当有很多这样的取 值时/ 可在备选量中任意选定. 

( b ) 条件期望估计量，曾在 43 节中 介绍. 这里选定的估计量为6 = E [9 \X = x ]. 

条件期望估计量将在 8.3 节仔细讨论.届时将称它为“最小均方估计”，因为它 
有个很重要的 性质： 在所有估计量中使均方误差达到最小（后面会讨论).这里有 
两条关于最大后验概率统计量的注释. 

( a ) 如果 © 的后验分布关于（条件）均值对称并且是单峰的[此时，0的后验分 
布列（或后验密度函数）只有一个最大值]，并且最大值在均值处取到.这时,最大后 
验概率估计量和条件期望估计量恰好一样.比如例 8 .3中，后验分布保持为正态的 
情况. 

( b ) 当 © 是连续型变量，有些时候最大后验概率统计量彡的具体值可以通过 
分析的方法得到.比如在对0没有限制的情况下，将 f e \x(0\x)(m log / e|x (%)) 的 
导数取为0,得到一个方程，由方程解出0即可.但是在其他情况下，可能会需要通 
过数值计算的搜寻. 


点估计 

• 估计量是 一个形式为白 = g ( X ) 的随机变量，其中 5 为某些 函数. 不同的 
9 形成不同的估计量. 

• 当观测的随机变量 X 的值 z 得到以后，就得到估计量 0 = g { X ) 的取值 
e , 我们称之为 估计值. 

• 一旦观测到 X 的取值 a :， 则 最大后验概 率估计量就赋予估计6 —个值, 
它是在所有0中使得后验分布达到最大时所对应的参数值. 

• 一旦观测到 X 的取值 A 条件期望估 计量赋予估计6的值是 E [0 |x = a： ]. 


例 S . 7 考虑例8_ 2 中朱丽叶第一次约会迟到的随机变量 X . X 服从区间[0, 0] 上 
的均勻分布,且参数 © 是未知随机变量，其先验分布 / e 为 [0,1] 上的均匀分布（随 
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机变量 0 的单位是小时).在那个例子中，对任意的 


1]，后验密度函数是 


对于给定的 a ：，/ e | X ⑼ re ) 在9的取值范围 [A 1] 中随0增大而 减小. 因而最大后验 
概率估计就是1注意这是一个很“乐观”的 估计. 如果朱丽叶在第一次约会时只 
迟到了一小会儿 Or « 0), 则未来约会迟到时间的估计是很小的. 

而条件期望估计就没有这么乐观了.事实上，有 


E [0 |X = x ] 


图 8.4 描绘了两个估计量随着： c . 变化的函数.可以看出对任意的迟到时间 A 
E [0 |X = 闭 比0的最大后 验概率 '估计 要大. 



图 8.4 例 8.7 中，最大后验概率估计和条件期望估计的比较 

例 8.8 考虑例 8.4 中的模型， X 为观测到的正面朝上的总次数.假设0的先验分 
布（正面朝上的概率）是[0, 1] 上的均匀分布.下面来计算0的最大后验概率估计 
和条件期望估计. 

如例 8.4 中所示，当 X = 0的后验分布服从参数为 a = k + im P = n-k + l 

的贝塔 分布： 


fe\x(0\k) 



e k {i-ey 


若 0 e [ o , l ] 
其他. 
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后验密度函数是单峰的.为了确定峰值的位置，将表达式 e k { i - e ) n - k 看作随 0 变 
化而变化的函数.令密度函数的导数取值为0,得到方程 

- e) n ~ k - (n — k ) d k (l - = 0； 

由此推出 

§= k -. 

n 

这就是最大后验概率估计. 

为得到条件概率估计，用贝塔分布的期望公式（见例 8.4) : 

E [0 |X = fc ] = 

n + 2 

注意，当 n 的取值很大时，最大后验概率估计和条件期望估计是基本一致的. □ 
如果没有附加的假设条件，点估计的准确性是没有多大保障的.举例来说，最 
大后验概率估计可能和后验分布的主体部分相距甚远.因此，总希望得到一些关于 
估计的一些附加信息，例如条件均方误差 E [(0 - 0 ) 2 |X =斗在 8.3 节中，我们将 
要进一步讨论这个问题.特别地，要通过对前面两个例子的回顾来分别计算最大后 
验概率估计和条件期望估计的条件均方误差. 

8.2.2 假设检验 

在一个假设检验问题中，0取化，…，中的一个值，其中 m 是一个取值较 
小的整数.经常处理的问题是 m = 2,就是两重假设检验问题.称事件 {© =氏}为 
第 i 个假设，记 为执. 

一旦观测到 X 的取值0；，就可以用贝叶斯准则来计算后验概率 P (0 = 9 i\X = 
^)= Pe \ x { ei \ x ). 接着根据最大后验概率准则选出后验概率最大的假设.（如果几个 
假设都拥有相同的最大后验概率，可以随机选择 .） 正如之前提到的，最大后验概率 
准则在所有准则中使得做正确决定的概率达到最大，从这个意义上来说它是最理想 
的 • 


假设检验的最大后验概率准则 

• 给定观测值 a 最大后验概率准则选择使后验概率 p(e = 6 i\x = x ) 最大 
的假设压. 

• 等价地，也就是使 pe ⑹叫 0 (啡)(义离散）或 Ve{0i)fx\e{x\6){X 连续) 
达到最大的假设执 . 

• 与其他决策准则相比，最大后验概率准则对任意观测值; c 使得选择错误 
假设的概率，也即犯错的概率达到最小. 
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有了最大后验概率准则，就可以计算相应的做出正确决策（或错误决策）的概 
率，它是关于: r 的函数.特别地，如果 SMAP ㈤ 是最大后验概率准则在 X = z 的情 
况下选出来的假设，那么做出正确决策的概率是 

P(© = ffMAp(a：)|^ = x). 

进一步地，氏是按最大后验概率准则选择假设压时所对应的 z 的集合，则做出正 
确决策的总概率为 

P(0 = smapPO) = y^P(Q = 0i,x e Si), 

i 

相应犯错误的概率是 

e Si ). 

下面是一个典型的用最大后验概率准则计算两重假设的例子 • 

例 8.9 有两枚不均匀的硬币，记为硬币1和硬币2,正面朝上的概率分别为 Pl 和 
P 2. 随机选择一枚硬币（每枚有相同的入选概率)，希望在一次抛硬币结果的基础上 
判断这枚硬币是硬币1还是硬币2.令0 = 1和 e = 2分别代表假设“选择硬币 
1”和“选择硬币2” . 记 X = 1表示硬币正面朝上 ，X = 0表示反面朝上. 

利用最大后验概率准则，比较 Pe ( l ) Px | e ( x | l ) 和阳⑺奴以啡）的大小，并且 
认为所投硬币就是表达式取值相应较大的那个.由于 P 0(1) = Pe (2) = 1/2,只须比 
较 PxieWl ) 和 Px \ e { x \2). 比如若 Pl = 0.46, p 2 = 0.52, 投掷结果是反面,注意到 

P (反面 |0 = 1) = 1- 0.46 > 1 - 0.52 = P (反面 = 2), 

因而认为所抛掷的是硬币 1. 

假设现在将所选的硬币投掷了 n 次， X 是正面朝上的次数.以前的做法仍 
然正确，根据最大后验概率准则选择观测结果最有可能发生的假设（建立在假设 
阳⑴= pe (2) = 1/2的基础 上). 因而当 X = fc 时，若 

p \{ l - pi ) n - k > vl { l - V 2) {n - k \ 

则认为0 = 1,否则，认为0 = 2.图 8.5 解释了最大后验概率 准则. □ 

如图 8.5 中所示,最大后验概率准则的特征是典型的两重假设检验问题的决策 
准则： 它的实现是将观测空间划分为两块没有交集的子区域，在每个子区域中接 
受一种假设.在这个例子中，最大后验概率准则通过 fc * 的划分而得以实 现：当 
k ^ k * 时接受0 = 1,否则接受 0 = 2. 犯错误的总概率由全概率公式计算 可得： 
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P (错误） = P (0 = l , X > k *)+ P(Q = 2, X ^ k *) 

=p 0 ⑴;^ c(fc)^(l - Pl )"- fe +pe(2)J2c(k)p k 2 (l-p 2 r- k 
k=k*+l k=l 

=U E c(a；)^(i +^^(1 - P 2 r ~ k ), 

\fc=fc*+i fc=i f 

其中 C ( fc ) 是正规范化常数.图 8.6 给出了一类门限决策准则的犯错误的概率，所 
谓门限决策准则是由一个 fc * 决定的决策准则， 当 k < k * 时接受0 = 1,否则接受 
© = 2. 因此门限决策准则的犯错误的概率是关于 fc * 的函数.最大后验概率准则是 
一个特殊的门限决策准则，此例中 fc * = 24,这个准则使得做正确决定的概率达到 
最大，从而犯错的概率达到最小. 


!，） 



!，（ 

后验概率/ ) 

后验概率 

V % 

.P(0=：1|X=A:) / 

、、 p(e=2|x=A：) - 

!’# 

1 

- 

、、、系面向上次数 

' 

f ，！ #! 

- $! f 


选择 © = 1 

选择0 = 2 — 


图 8.5 最大后验概率准则在例 8.9 中的应用，其中 ， n = 50, Pl = 0.46, p 2 = 0.52, 计算后验 
概率 

P (© = %\X = k ) — c ( k ) pQ ( i ) P(X = k\Q = i ) 

= c ( k ) pe ( i ) p ^( l - Pi ) n - k , i = 1,2, 

其中 C ( fc ) 是正规范化常数，选择有最大后验概率的假设 Q = i . 由于例中 pe ( l ) = 
pe ( 2 ) = I / 2 ,按最大后验概率准则，只须选择使 Pt fc ( l - Pi ) n - fc 达到最大的假设 0 = *. 
在例 8.9 中， fc * = 24,当 A : 彡 fc * 时接受0 = 1，否则接受0 = 2 

下面介绍的是通信工程中的一个经典例子. 

例 S .10 (信号检测和匹配的滤波器）某发射机传送两条可能的信息中的一条.如 
果传送的是信息1则 © = 1，否则 0 = 2. 假设两条信息传送的概率是几乎相等的， 
即 Pe ⑴= p@(2) = 1/2. 

为了提髙抗噪声的能力，发射机使用一种信号使得传送信息的时间延长.特别 
地，发射机发出信号 S = ( 负 ，…，&)，其中次为实数 • 若0 = 1( 相应的， © = 2)， 
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则 s 是确定的序列 （ ai ，…， 0( 相应地， ( fei , •• - , M ) -假设两个备选信息有相同的 
“能量”，即 a ? +…+ < =圬+…+技.接收机能够观测到传送的信号,但是伴随 
着附加噪声的干扰.更具体地，它的观测值为 

Xi = Si- {- Wi, i = 1，…， n， 

其中假设呢服从标准正态分布，互相独立，且与信号独立. 



图 8.6 犯错的概率随门限决策准则中的阈值 K 时接受0 = 1,否则接受 e = 2 )变 
化的图示.和图 8.5 —样，相关的参数为 n = 50, Pl = 0.46, p 2 = 0.52. 最大后验概 
率准则的阈值为 K = 24,此时犯错的概率最小 


在 e = 1的假设下,是独立正态随机变量,均值叫方差为 1. 因此 

_ p—((Z1 — ai_) 2 + … + (a;„—dn) 2 )/2 


fx\e(x\l) 


{V^i) n 


类似地， 


fx\@(x\2) = 


(V2^) n 

根据贝叶斯准则，第一条信息被传送的概率是 


e -((x 1 -6 1 ) 2 + ...+(x„-M 2 )/2. 


_ exp{-((a：i - ai) 2 -I - 1- (x n - a„) 2 )/2} _ 

exp{-((xi - ai) 2 + ... + (a;„ — a„) 2 )/2} + exp{-((a：i - bi) 2 + … + (〜一 6„) 2 )/2} 

展开指数式的二次项，并利用假设 al + --- + al = bl + .-- + bl 表达式化简为 

- \~ a n x n ) 

p(e = i\x = x) = p 0 |x(ik) = e(aiXl+ ... +anXn) + e ( bl x 1 + -+b n x n ) - 
计算 p(e = 2|久 = x ) 的公式也是类似的，把分子中的叫换作~即可. 
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根据最大后验概率准则，要选择使后验概率最大的假设，即 
选 © = 1，如果 y^^jXj > y ^ bjXj ； 


选 ㊀ = 2 ,如果 y^ajXj < y ^ bjXj . 

i=l i=l 

(如果内积相等，则随机选择哪个假设 •） 这种特殊的用来判断传送信号的结构被称 
为匹配的滤 波器： 根据得到的信号 （町， •■_,〜） 计算内积1^ =1 叫而和 Er=i 
选出取值髙的作为假设（也就是最佳“匹配”）. 

这个例子可以推广到 m > 2 的情形，其中每条信息传送的概率是相等的.假 
设对于信息 fc ， 发射机发出确定的信号（4,…，<)，对于每个 fc , (4) 2 + ••■ + ( a k n f 
都相等.这样在相同的噪声模型下，通过类似的计算,最大后验概率准则解码得^1』 
的信号（町，…，〜）将会是取值最大的信号 fc . □ 


8.3 贝叶斯最小均方估计 

本节将详细讨论条件期望估计量.特别地，它具有使可能的均方误差达到最小 
的性质（最小均方简称为 LMS ). 我们还将讨论它的一些其他性质. 

考虑在没有观测值 X 的情况下用常数彡来估计0这个简单的问题.估计误 
差6 - ㊀ 是随机的（因为0是随机的)，但是均方误差 E [(0 - 6) 2 } 是一个由 g 所 
决定的数，可以达到 最小. 在这种准则下，最好的估计是纟= E [0], 下面来验证这一 
结论. 

对任何估计象有 

E [(0 - §) 2 } = var (© -§) + ( E [(0 -句]) 2 = var (0) + ( E [0]— 句 2 ; 

第一个等号用的是公式 E[Z 2 } = var ( Z ) + (E[Z]^, 第二个等号成立是因为减去常数 
谷 不改变随机变量 © 的方差.现在注意到 var ( e ) 与6是无关的.因此只要选择使 
( E [0] - 6) 2 达到最小的象也就是6 = E [0] (见图 8.7). 

假设现在我们由观测值 X 来估计0,同时要求均方误差最小.一旦得到 X 
的值^情况就变得和之前讨论的一样，但是我们已经进入一个新的“世界”，就 
是所有的事情都取决于 X = x . 所以可以把之前的结论拿过来并且得到结论： 
条件期望 E [0 |X = x ] 在所有常数6中使得条件均方误差 E [( G » - 句 2 |X = a ；] 达到 
最小. 
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图 8.7 均方误差 E [(0-0 2 )] 是关于估计值6的二次函数，在6 = E [0] 时达到最小.均方误 
差的最小值是 var (0) 

广义上来说，估计量为 3 (叉） 的（非条件）均方估计误差定义为 


E [( B - 5 ( X )) 2 ]. 

如果我们将 E [©| X ] 视为 X 的函数或估计量，下面的分析说明在所有可能的估计 
量中， g ( X ) = E [0| X ] 使得均方误差最小. ® 


关于最小均方估计的重要事实 

• 在没有观测值的情况下，当 0 = E [0] 时 E[(e — 幻 2 ]达到 最小： 

E [(0 - E [0]) 2 ] < E [(0 —句 2 ]，对所有4成立 • 

•给定 X 的取值 a ;, 当6 = E [0 |X = rr ] 时 E [(0 - 6 2 )\X = x ] 达到 最小: 
E [(0 - E [ Q\X = x ] f\X = 州 < E [(0 - 0 ) 2 \X = x \, 对所有 6 成立- 


①对于任意给定久的取值 a 是一个数，因而 

E [(©- E [0 |X = x]) 2 \X = x ] < E[(e - g { x)) 2 \X = x \. 

因此， 

E [(0- E [0| X ]) 2 | X ] < E [(0- g ( X )) 2 \ X ], 

这是关于两个随机变量 （ X 的函数）的不等式.对两边取期望再用全期望公式，得到结论 
E [(0- E [0| X ]) 2 ] 彡 E [(0 - g ( X )) 2 ], 


对于所有估计量 g ( X ) 成立. 
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• 在所有的基于 X 的 0 的估计量 S ( X ) 中，当 g { X ) = E [0| X ] 时均方估计 
误差 E [(0- ff ( X )) 2 ] 达到 最小： 

E [(0- E [0| X ]) 2 ] < E [(0 - g { X ) f ], 对所有估计量 5 ( X ). 


例 s . ii 设 e 服从[4, lo ] 上的均勻分布.假设在观测 e 时伴有随机误差特别 
地，观测到随机变量的值是 

X = Q + W , 

假设 W 是服从[-1， 1] 上的均勻分布且与 © 独立. 

为计算 E [ Q\X = x ], 注意到 f @ (9) = 1/6当4 < 0彡10,否则 f @ (6) = 0.在 © 
取0的情况下， X 就是0 + W ， 并且服从于 [6-1, 6 + 1} 区间上的均勻分布.因此， 
联合密度为 

fe , x (6, x ) = f @(0) fx \&( x \6) = ••• = ▲， 

当4彡0<10且 0 — 彡0 + 1，对于其他（0， x ) 取值为0.图8_8右边中的平 
行四边形是 fe ， x ( e , x ) 取值不为0的 (9, x ) 取值的集合. 



图 8.8 例 8.11 中的密度函数.0和 X 的联合密度函数是在右边图中平行四边形内的均勻 
分布.给定随机变量 X = 0 + W 的取值 rc ， e 的最小均方估计由 a : 和右边所示的分 
段线性函数决定 

给定 X = A 后验密度函数 / e | x 相应于平行四边形的纵断面是均匀分布的. 
因此 E [ Q\X = X ] 是断面的中点，在这个例子中恰好是0；的分段线性函数.在给定 
尤= z 的情况下，均方误差定义为 E [(0 - E [0| X]) 2 |X = z ] ，是0的条件方差.它 
是: r 的函数，解释见图 8.9. □ 
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图 8.9 例 8.11 中的估计的条件均方误差，它是关于 X 的观测值 a : 的函数.注意，有一些观 
测值要优于其他的.比如，若 X = 3,则可确定0 = 4且条件均方误差为0 


例 8.12 考虑例 8.7 中朱丽叶第一次约会中迟到时间服从 [0,©] 区间上均勻分布 
的随机变量 X . 这里0是一个未知的随机变量，它的先验分布 * 服从 [0,1] 上的 
均匀分布.在那个例子中，已知最大后验概率估计等于 a ; 且最小均方估计是 


酬义 = 和 i d r]h^\ de = j^\- 

下面来计算最大 后验概 率估计和最小均方估计的条件均方误差.给定 X = % 
对于任意的古有 

EK e-er\x = x] ^j\e-ef. w ^ ( ie 

丨 logx| 2|logx| 


对于最大后验概率估计，纟= x , 条件均方误差是 

对于最小均方估计，^ = (1 - x )/\ loga;|, 条件均方误差是 

E 你 ( ㈢ 


图 8.10 绘制了两种估计（最大后验概率估计和最小均方估计）的条件均方误 
差.可以看出最小均方估计有一致的相对较小的均方误差.这是最小均方估计量的 
总体优良性能的体现. □ 
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图 8.10 例 8.1 2 中最大后验概率估计和最小均方估计的比较 

例 8.13 考虑例 8 .8中的模型，观测 n 次投掷一枚不均勻的硬币正面朝上的次数 
X . 假设 0( 正面朝上的概率）的先验分布是 [0,1] 上的均勻分布.在那个例子中，当 
X = A ; 时，后验密度是参数《 = &+1和 0 = 71-6 + 1 的贝塔密度,且最大后验概 
率等于 fc / n . 通过贝塔密度的矩估计公式（参见例8.4)，得到 

E[B m IX = i-1 = (fe + l)(fc + 2) ■ • • (fc + m) 

1 1 (n + 2)(n + 3) … (n + m + 1 )， 

特别地，最小均方估计为 

E [0 |X = fc |] = ^± i . 

给定 X = fc , 任何估计彡的条件均方误差是 

E 忉- 0 ) 2 |X = s ] =沪— 20 E [0 |X = k}+ E [0 2 |X = k] 

= Ql_ Og fe + 1 (fc+l)(fc + 2) 

n + 2 十 ( n + 2)(n + 3). 

最大后验概率估计的条件均方误差是 

E[(0- 0) 2 |X = A；] =e[Q- ©) V = fc] 

= ^_ 2 fc fc + 1 (fc + l)(fc + 2) 

n n n + 2 (n + 2)(n + 3)_ 
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最小均方估计的条件均方误差是 


E 敁— 0 ) 2 |X = fc ] = E [0 2 |X = k \- ( E [0 |X = fc ]) 2 

(fc + l)(fc + 2) — /fc + l\ 2 
(n + 2 )(n + 3) \n + 2 y 

图 8.11 画出了投掷 n = 15 次的结果.值得注意的是，和前面的例子一样，最小均方 
估计有一致的相对较小的条件均方误差. 口 


估计值 



图 8.11 在投掷15次 （n = 15) 的情况下，最大后验概率估计和最小均方估计及其条件均方误 
差之比较（参见例 8.13) 

8.3.1 估计误差的一些性质 

将最小均方估计和相应的估计误差分别记为 


0 = E [0| X ], 0 = 0 — 0， 

随机变量合和§有一些很有用的性质，它们在 4 .3节中已经推导得到，而在这里 
只是简单引用重复的引述如下（注意记号上的变化，在 4.3 节中，观测值记为 y , 待 
估参数记为 X ，而在这里却分别记为 X 和 0). 


估计误差的性质 

• 估计误差§是无 偏的， 具体说来它的条件期望和非条件期望都是0: 
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E [0] = 0, E [0 |X = x ] = 0,对 所有; r . 

• 估计误 差 § 和估计量白是不相 关的： 

cov(0,0) = 0. 

- e 的方差可以分解为 

var(0) = var(0) + var(©). 


例 8.14 称观测 X 是无信息的，如果均方误差 E [0 2 ] = var (§) 和 var (©)(0 的无 
条件方差）是一样的.什么时候会出现这样的情形呢？ 

利用公式 

var (0) = var (0) + var (0), 

由上式看出 X 是无信息的当且仅当 var (0) = 0. 一个随机变量的方差为0当且仅 
当该随机变量是一个常数,与其均值相等.于是得到结论 X 是无信息的当且仅当 
估计白= E [0| X ] 与 E [0] 相等（对于 X 的任意取值). 

若0和 X 是独立的，对于所有的: r 都有 E [ Q\X = x }= E [0], 很直观地可以 
看出事实上 X 是无信息的.反过来却不 成立： 有可能 E [0 |X = 总是等于常数 
E [0], 但是 © 和 X 不独立.（你能构造一个例子吗?） □ 

8.3.2 多次观测和多参数情况 

前面的讨论都是建立在 X 是一元随机变量的基础之上.但是完整的论证和 
结论在 X 是随机向量 X = , X n ) 时也 适用. 因此，均方估计误差在选 

EfBIXx ,-. -， X „] 作为估计量的时候达到最小，即 

E [(0- E [ e |^ ，…， X n }) 2 } < E [(0 - g ( X u …， X n )) 2 ] 

对于所有的估计量 g ( X u … • ，都成立 • 

这就对一般的最小均方估计给出了完整的解决方案，但是它一般很难实现，主 
要有以下一些 原因： 

( a ) 为计算条件期望，… , X n ], 需要建立概率模型得到联合分布密度函 
数 fe , x u -, x n ； 

( b ) 即使可以找到联合分布密度函数， E [0 H ，, X n ] 可能是一个关于 X !,..-, 
X n 的很复杂的函数. 

因此,实际中常常求助于条件期望的近似值，或者更关注于那些并不最优但是 
简单而易于实现的估 计量. 最常用的方法（在 8.4 节讨论）加入了线性估计的约束. 
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最后,我们考虑估计多参数 © I ,- - ,© m 的情况_最自然的是考虑准则 
E [(@1 — @1) 2 ] + . . . + E[(@ m — 0 m ) 2 ]; 

我们的目的是求估计量 © I , - - ,© m , 使得上式在—切估计量中达到 最小. 但是这与 
寻找每个 A 使得 E [(0 i - © i ) 2 ] 达到最小是等价的.因此，多参数的估计问题本质 
上是在处理 m 个单参数的估计 问题： 对于每个参数呔,其相应的最小均方估计为 
0 i = £[0^!, ••- , X „], 对所有 i 均成立. 

8.4 贝叶斯线性最小均方估计 

在本节中，我们在一个较小的统计量的集合类中寻找统计量使得均方误差最 
小： 那些观测值的线性函数的集合类.虽然这种统计量会导致较髙的均方误差，但 
是在实际中有明显的优势：对计算要求简单,只包括均值、方差以及观测与参数之 
间的协方差.在最大后验估计量和最小均方估计量难以计算的情况下，这是个很有 
用的替代估计量. 

基于观测 Xi ， …，;^的 e 的线性估计量形式为 
0 = o,\Xi + ... + a , n X n + b . 

给定 叱 ，…， a n , b , 相应的均方误差是 

E [(@ — a±Xi — — a n X n — b ) 2 ]. 

线性最小均方估计选择 ai ,-- - , a n , b 使得上面的表达式取最小值.我们首先解决 
n = 1的情况，然后再将解法推广. 

8.4.1 一次观测的线性最小均方估计 

现在我们感兴趣的问题是找到 e 的线性估计 ax + 6,使得均方误差 E [(0- 
aX - b ) 2 } 达到最小.假设已经选好了 a ， 如何选6呢？这个问题等价于选择常数& 
来估计随机变量 © - aX . 通过 8.3 节最初的讨论，最好的选择是 

6 = E [0 - aX ] = E [0] - aE [ X ]. 

选择了 &之后，剩下的问题是选择 a 使得下面的表达式取最 小值： 

E [(0 -aX — E [0]+ aE [ X ]) 2 ]. 

将表达式写为 


:(@ — aX ) = < Tq + a 2 a % + 2 cov (0, — aX ) = ( Tq + a 2 cr ^ - 2 a - cov (0, X ), 
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其中和分别是0和 X 的标准差，且 

cov (0, X ) = E [(0 - E[Q])(X - E [ X ])] 

是 © 和 X 的协方差.为使 vax (0- aX ) (关于 a 的一个二次函数）达到最小，令表 
达式的导数为0,求解 a . 得到 

a _ cov ( Q ， X ) — paeax q~e 

— 4 一 A ~ 

其中 



是 e 和 X 的相关系数.根据 a 的选择，所选线性估计量白的均方估计误差是 

var (0 — 0) = 0-0 + 0, 2 (7% — 2 a - cov (0, X ) 

=ff| + P 2 ^§-(Tx - 2p—pa e a x 
<^x a x 

=(l-p 2 )a%. 


线性最小均方估计的公式 

•基于 X 的0的线性最小均方估计0是 

® = E[ e ] + C -^y^ x ~ E[x]) = E[ej + P^(X- E[X]), 

其中 

_ cov (0, X ) 

P 0-0 crx 

是相关系数. 

• 所得均方估计误差是 

(1 — p 2 )cr|. 


线性最小均方估计的公式只包括均值、方差以及0与 X 间的协方差.更进一 
步，它有个直观的解释.为描述准确起见，假设相关系数 p 是正的.估计量以 e 的 
基本估计 E [0] 为基础，通过 X - E [ X ] 的取值来调整.举例来说，当 X 比均值大, 
则 X 与 e 之间的正相关系数告诉我们预期中的 © 将大于它的均值.因此，估计量 
会是一个大于 E [©] 的取值 . p 的取值同样也会影响估计的质量.当 | p | 接近1的时 
候，两个随机变量髙度相关，了解 X 将帮助我们准确地估计0，从而均方误差也比 
较小. 
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最后注意，在 8.3 节中提到的估计误差的性质对于0的线性最小均方估计量 
仍然成立 （ 参见本章末尾的习题) • 

例 8.15 回顾例8.2、例 8.7 和例 8.12 中的模型，说的是朱丽叶第一次约会中迟 
到时间 X 服从区间 [0,0] 上均勻分布，这里0是一个未知的随机变量，它的先验 
分布 f e 服从 [0,1] 上的均勻分布.下面来求基于 X 的0的线性最小均方估计. 

利用事实 E [ X |0] = 0/2和重期望法则， X 的期望值是 


E [ X ] = E [ E [ X |0]] = e [|] = ® = 


进一步，利用全方差法则（同第 4 Mm 4.17 中的计算)，得到 
var ( X ) = 

现在计算 X 和 © 间的协方差，根据公式 

cov (0, X ) = E [ QX ] - E [0] E [ X ], 


和事实 

于是有 


E [0 2 ]= var (0) + ( E [0]) 2 = i - + i = i . 


12 4 3 

E [0 X ] = E [ E [0 X |0]] = E [0 E [ X |0]] = e [^] = g , 

其中第一个等式用的是重期望法则，第二个等号成立是因为对所有的0， 
E [0 X |0 = 9]= E [0 X |0 = 6)= 0 E [ X |0 = 6}. 


因此 

cov (0, X )= E [0 X ] - E [0] E [ X ] = l - L ^ = ^. 

线性最小均方估计量是 

相应的条件均方误差按照例 8.12 中公式计算， 

再将》= (6/7)0；+ (2/7) 代入上式,就得到条件均方误差.在图 8.1 2 中，我们将线 
性最小均方估计量、最大后验概率估计量和最小均方估计量（见例8.2、例 8.7 和 
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例 8.12) 放在一起比较.注意到最小均方估计量和线性最小均方估计量在图中大部 
分感兴趣的区域是一致的，相应的条件均方误差也是如此.而最大后验概率估计量 
与其他两个估计量相比很明显有较大的均方误差.当 o : 趋近于1时,线性最小均方 
估计量比其他两个估计量的效果要差，有的甚至给出6 > 1的估计值,这已经在0 
可能取值的范围之外了. □ 



例 8 .1 6 (不均匀硬币的线性最小均方估计）再考虑例8.4、例 8.8 和例 8.13 中提 
到的硬币投掷问题，现在来求线性最小均方估计量.在这一问题中，随机变量 0( 正 
面朝上的概率）的先验分布是[0，1]上的均匀分布.将一枚不均勻的硬币独立地投 
掷 n 次,观测到正面朝上的次数为 X . 因此如果 © 等于0，那么随机变量 X 服从 
参数为 n 和0的二项分布. 

分别计算线性最小均方估计量公式中的系数.已知 E [0] = 1/2和 
E [ X ] = E [ E [ X |0]] = E [ n 0] = 

0 的方差是 1/1 2 , 所以 ere = 1/ V 12. 同样，前面的例子中已经算得 E [0 2 ] = 1/3. 
当0取值为0， X 的（条件）方差是 n e(l - 9). 利用全方差准则，得到 

var ( X ) = E [ varX |0] + var ( E [ X |0]) 

= E [ n 0 (l — 0)] + var ( n ©) 

_n n n 2 
= 2 _ 3 + 12 
_ n(n + 2) 

= ~ 12 ~* 
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为了计算 X 和0的协方差，利用公式 

cov (0, X ) = E [0 X ] — E [0] E [ X ] = E [0 X ] — —. 


类似例 8.15 有 

E [0 X ] = E [ E [0 X |0]] = E [0 E [ X |0]] = E [ n 0 2 ] = 


所以 


cov (0, X )= - 


n n 
4 = 12' 


将所有的计算结果代入线性最小均方估计量的公式，得到 



n{n + 2)-JU {X H - I) = 


X + l 

71 + 2 


注意,这与之前例 8.13 中得到的最小均方估计是一 致的. 这并不奇怪：如果最小均 
方估计量是线性的，就如例 8.13 中那样，则此估计量在线性估计量（更小的类）中 
仍然是最优的. 口 
8.4.2 多次观测和多参数情形 

现在将求线性最小均方估计的方法推广到多元观测的情形.由单次观察值的 
情形推广到多次观察值到情形并不带来本质上到困难，用完全相似的方法可推导得 
到线性最小均方估计的公式.线性估计的系数只和各观察值的均值、方差以及不同 
的随机变量对的协方差有关.同样的对于多参数呔估计，考虑准则 


E[(@i — © I ) 2 ] + _ • • + E [(0 m — 0 m ) 2 ]， 


使其在所有估计量 0!,-.. ,0 m 都是观测值的线性函数的情况下达到最小.这与寻 
找每个4使得 E [(0, - 00 2 ]达到最小是等价的，因此本质上将问题化解成 m 个 
单参数的线性最小均方估计的求解问题. 

在多元观测且相互独立的情况下，单个参数的线性最小均方估计量的公式可以 
简化如下 . 0是均值为 / i 方差为的随机变量， Xi …， X n 是具有如下形式的多 
次观测 


Xi = & + Wi , 

其中观测误差 m 是均值为 0 方差为 W 的随机变量.假设0，爪，…，是各不 
相关的，基于观测值… ， X „ 的0的线性最小均方估计量是 

A ^o+^Xi/af 
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上面的结果的推导是非常简单的.我们的目标函数为 


H a i, - - - ,a n ,b) = E[(0 - a-iXi - a n X n -b) 2 ], 

为求其最小值，令其关于 «!,••• , a n ,b 的偏导数分别为 0. 经过计算（本章末尾的习 
题中给出）得到前面线性最小均方估计量公式中的系数为 


±/fo_ 


_ 1/^1 


EHoV-r aj = YZ 0 y-r j = 1. 


8.4.3 线性估计和正态模型 

线性最小均方估计量往往和最小均方估计量有着不同的形式，因而它是次于最 
小均方估计量的.但是如果最小均方估计量恰好是观测值，…，的线性函数, 
则它同时也为线性最小均方估计量，也即两个估计量重合. 

这种情况发生的一个重要例子是： © 是一个正态随机变量，观测值是足= 
e +网，其中 m 是独立零均值的正态噪声项，同时与 e 独立.这个模型与例 8.3 
中的一样，我们看到 e 的后验分布是正态的，其条件均值£[0|^,... , x „] 是观测 
值的线性函数.因此，最小均方估计量和线性最小均方估计量是重合的.事实上，本 
节中给出的线性最小均方估计量的公式和例 8.3 中后验均值3的表达式是一致的. 
这个结果还可以进一步 推广： 如果，…，都是一些独立正态随机变量的 
线性函数，那么最小均方估计和线性最小均方估计量是一致的.它们和最大后验概 
率统计量也是一致的，这是由于正态分布是单峰对称的. 

上面的讨论提出了线性最小均方估计量的一种有趣的 性质： 将原模型进行改 
变,在保持均值、方差和协方差不变的情况下，假设牵涉到的随机变量都服从正态 
分布，在改变了的模型中得到的估计量（最大后验概率估计量、最小均方估计量和 
线性最小均方估计量都是相同的）恰好就是原模型中的线性最小均方估计量.因此， 
线性最小均方估计量有两方面的 价值： 一种是计算的简便(避免公式 E [0| X ] 的复 
杂计算)，另一种是模型的简化（用正态分布替代较难处理的分布). 

8.4.4 线性估计的变量选择 

下面指出线性最小均方估计和最小均方估计的一个重要区别_考虑一个未知的 
随机变量0，观测值 Xi ，…， X n 以及经过变换的观测值 X = hiXi ), i = 1,…， n ， 
其中函数/^是一个变量的一对一变换.经过变换后的观测值 K 和原始的观 测值足 
所传达的信息是相同的，因此基于 R ，…，的最小均方估计和基于 Xi ，…， 
的最小均方估计是一 样的： 


E[0|/i(X!), • ■ • , h(X n )] = E[0|Xi ， … ， X„]. 
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另一方面，线性最小均方估计存在的前提是在观测 A ， …，忍的线性函数类 
中存在 e 的合理的估 计量； 但这并不总是成立的.比如， e 是某分布的未知方差， 
而&，…，是从那个分布独立抽样的随机变量.如此一来，希望从 
的线性函数中找出 e 的好的估计是不可能的.这也说明对观测的变换对于找到 e 
的好的估计是有帮助的.要找到合适的变换并不总是很容易的，对问题结构的直觉 
往往可以提供一些比较好的选择.习题17就是一个简单的例子 • 

8.5 小结和讨论 

本章介绍了统计推断方法，其目的是从概率相关的观测中提取未知变量或模型 
的信息.我们关注未知量是一个（也可能是多个）参数并且讨论了假设检验和估 
计问题. 

我们已经对贝叶斯和经典统计推断方法做了区分.本章着重讨论贝叶斯方法, 
即将参数看作具有先验分布的随机变量 e . 最感兴趣的目标是给定观测时 e 的后 
验分布.后验分布从原理上说可以通过贝叶斯准则来计算，但是实际上，这是一项 
很艰巨的任务. 

最大后验概率准则（使 e 的后验概率达到最大）是用途广泛的推断方法，可以 
用于估计和假设检验问题.我们还讨论了其他两种参数估计的 方法： 最小均方（或 
条件期望）估计量和线性最小均方估计量.它们基于使 e 和它的估计间的均方误差 
最小化的原则.线性最小均方估计有时会导致较大的均方误差，但是计算简单，且 
只与相关变量的均值、方差和 e 与观测之间的协方差有关.在 e 和观测随机变量 
都服从正态分布的假设下,最大后验概率估计量和两个最小均方估计量是重合的. 

习 题 

8.1 节贝叶斯推断和后验分布 

1. 阿特米亚搬入了一间新房子，但是她只有50%的概率确定她的电话是 2537267. 为了确 

定，她用房子里的电话机拨打了 2537267,结果接到了“忙碌”的提示，她因此得出结论这 

个号码是正确的.假设在任何时间内一个典型的7位数电话号码忙碌的概率是1%，那么 

阿特米亚的结论是正确的概率为多少呢？ 

2. 学生南菲丽在概率论课堂上做选择题测试.试题有10个问题，每个问题包含3个选项. 

每道题有两种可能的情况，且题与题之间是独 立的： 她知道答案，这样她就能够答对选择 

题; 她不知道答案，会猜答案，但是有1/3的概率猜对答案. 

( a ) 假设南菲丽答对了第一道题，她的确知道这题正确答案的概率是多大？ 

( b ) 假设南菲丽答对了 10道题中的6道，她的确知道答案的题目数的后验分布列是什 
么？ 
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8.2 节点估计，假设检验，最大后验概率准则 

3- 相继到达阿尔文乘车的公交站的两辆公交车之间的间隔时间（分钟）是一个随机变量，其 
分钟数服从参数 e 的指数分布 . e 的先验概率密度函数是 


/ e (6>) = 



若0 6 [0,1/5] 
其他. 


( a ) 周一，阿尔文到达车站后等了 30分钟汽车才来•问0的后验概率密度函数、最大 
后验概率估计和条件期望估计分别是 什么？ 

( b ) 基于周一的经验，阿尔文决定更准确地估计0,于是记录了他5天的等车时间分别 
为30, 25, 15, 40和 2 0,并且假设观测值相互独立.问基于5天的观测数据 ， 0的 
后验概率密度函数、最大后验概率估计和条件期望估计分别是什么？ 

4 - 学生们在概率论课上做选择题，共10道，每题三个选项.知道答案的学生能够正确作答， 
不知道答案的会猜答案且猜对的概率为 1/3. 每个学生属于下面三个类别 i = 1,2,3的 
概率是相 等的： 知道每题答案的概率仇，其中& = 0.3, 0 2 = 0.7, 6> 3 = 0.95( 题与题之间 
独立).假设随机抽取的一个学生答对了 fc 个问题. 

( a ) 对于 fc 的每一取值，求这个学生属于哪一类别的最大后验概率估计. 

( b ) 设 M 是这个学生知道答案的题 目数. 在这个学生答对了 5 道题的情况下，计算 M 
的后验密度函数、最大后验概率估计和最小均方估计. 

5 •将例 8.4 中不均匀硬币问题稍加 变动. 假设正面朝上的概率 © 分布在 [0,1] 区间，密度函 
数为 

/ e ⑻= 2_4|臺一小 ee [ o , 1]. 

假设 n 次独立硬币投掷的结果是 fc 次正面和 n-k 次反面，求0的最大后验概率估计. 
6. 霍许难教授想在概率论考试中出些难题，她正在考虑一道准备在下次考试中出的 题目因 
此她让助教解这道题目并记录解题时间.霍许难所认为的这道题是难题 (0 = 1) 的先验 
概率为 0.3, 而助教解题时间的条件分布密度函数（以分钟为单位）为 


/t|©(x|0 = 1) = 



若5彡 x 彡60, 
其他， 


(0 = 1 表示题目难)， 


fr \ e ( x\Q = 2) = 



若5 ^ x < 60, 
其他， 


(0 = 2 表示题目不难)，其中 Cl 和 C 2 为归一化常数.她用最大后验概率准则来判断这个 
问题是否难. 

( a ) 若助教解题时间为 M 分钟，她将接受何种假设？而犯错误的概率又是多少？ 

( b ) 为了提高她的判断的可靠性，霍教授让4个助教来做这一道 题目. 助教的解题时间 
是相互独立且服从第一个助教的解题时间的分布.记录的解题时间分别是 10 , 25 , 



382 第 8 章贝叶斯统计推断 


15, 35分钟.基于这5个观测值，霍教授现在将接受何种假设？而犯错误的概率又 
是多少？ 

7. 现在有两个盒子，每个盒子中装了 3个球 ：盒子 1中装了一个黑球两个白球，盒子2中 
装了两个黑球一个白球.我们随机选择一个盒子，其中选盒子1的概率是确定的 P , 然后 
从选定的盒子中抽出一个球. 

( a ) 描述通过抽出球的颜色来判断盒子编号的最大后验概率准则. 

( b ) 假设 p = 1/2,求做出判断时犯错的概率，并与不抽球就做出判断时犯错的概率进行 
比较. 

8. 已知硬币正面朝上的概率为如(假设 Ho ) 或奶(假设 i ^). 现独立重复地投硬币，并记 
录在首次出现反面朝上之前正面朝上的次数_假设0 < 如 < 奶< 1，且给定先验概率 
P ( if 0 ) 和 P(Hi) 的值. 

( a ) 给定在首次出现反面之前出现了 fc 次正面，计算假设丑 i 正确的条件概率 ( P ( ffi ) = 
P ( J / 2 ) = 1/2). 

( b ) 考虑决策 准则： 当 fc > fc * 时选择备择假设丑 i ，其中 fc * 为一非负整数,否则就选择 
假设假定先验概率 P ( Hi ) = P(H 2 ) = 1/2,试给出这个决策准则犯错概率的 
公式.当 fc * 取何值犯错的概率达到最小？还有其他类型的决策准则可以进一步降 
低犯错的概率吗？ 

( c ) 假设® ) = 0_3,叭= 0.7, P (丑 i ) > 0.7 .在 P (_ Hi ) 从 0.7 变到1的过程中，最优选 
择 fc * (使犯错概率达到最小）是如何变化的？ 

9. * 考虑含有 TM 重假设的贝叶斯假设检验问题，观测向量为 X =⑷ ， … ， Xn). g n (X U •• - ,Xn) 

是基于 Xi,-- - ,X„ 的极大后验概率估计， g n -i{Xx, ■■- ,X n -!) 是基于 Xi, •■- ,X n -i 
的最大后验概率估计（最大后验概率准则只利用观测向量中的前 n - 1个元素 )• a ： = 
( xi ,-- - 是观测向量的实际值，且令 

e„(xi, • - - ,X n ) = P(0 ^ gn(xi, - - - ,X n )\X\ = Xl, … , X„ = X n ), 
e n -l(xi, • • • , Xn-l) = P(0 / gn-i(xi, ■ ■ ■ , a ： „-l)|_Xl = Xi, ■■- , X„-l = x„-l), 

为相应犯错概率.证明 

e„(xi, - - - ,Xn) ^ e„-i(xi, - - • ,x n -i), 

所以在做最大后验概率决策的时候，增加数据不会造成犯错概率的增加 • 

解将 9n-x{X U ■■- 看作基于观测向量所有元素- ,^ n 的特殊决策准则. 

由于极大后验概率准则 Sn(Xi, •• - ,Xn) 使犯错概率达到最小（在所有基于 Xi,--. ,X„ 
的准则中)，即得结果. 

8.3 节贝叶斯最小均方估计 

10. 一个警方的测速雷达总是高估驶来汽车的速度，高估的数量服从[0, 5 ]英里/时的均匀分 
布.假设汽车行驶的速度服从 [55,75] 英里/时的均勻分布，雷达测量的汽车速度的最小 
均方估计是什么？ 
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11. 商店购物车的数目 © 服从1到100之间的均匀分布，购物车从1到 © 依次编号.你进 
入商店的时候观测到的第一辆购物车的编号为 X ，并假定 X 服从1， ... ，0上的均勻分 
布.现在想利用此信息来估计 0. 找出最大后验概率估计和最小均方估计并绘图. 提示: 
可参见例 8 . 2 . 

12- 考虑例 8.2 中的多个观测变量的 情况： 给定0 = 0，随机变量&，…，相互独立且服 
从区间 [0, e ] 上的均勻分布， e 的先验分布是区间 [0,1] 上的均勻分布.假设 n > 3. 

( a ) 给定 A ，…，的值奶，…，〜，求0的最小均方估计. 

( b ) 当 n = 5时，画出最大后验概率估计量和最小均方估计量的条件均方误差关于 
x = max{a ： i, ■■■ , x n } 的函数图像. 

( c ) 若固定 i = 0.5,当 n 00 ,最大后验概率估计、最小均方估计和相应的条件均方 
误差的表现如何？ 

13.* ( a ) Fi , " , Y n 是独立同分布的随机变量 ，: K = K +…+ 证明 E [ Yi | y ] =吾. 

( b ) 0和 W 是独立零均值正态随机变量，方差分别为正整数 fc 和 m •利用 ⑷ ™ 的结论 
求 E [0|© + W ], 并确认这与例 8.3 中条件期望公式是一样的.提 示：将 0和 W 看 
作独立随机变量的和. 

( c ) 重复 （ b ) 的 过程. 不过0和 W 为相互独立的泊松随机变量，均值分别为整数 A 和 
〆 • 

解 （ a ) 根据对称性,对每个 i 来说 E ^ IF ] 是一样的.进一步地， 

E[Yi + …+ Y n \ Y ] = E[F|F] = Y . 

所以， E [ Fi | F ] = Y / n . 

( b ) 可以将 e 和 w 看作独立标准正态随机变量 的和： 


e = e 1 + ... + 0 fe , w 

将⑷中的 y 看作 0 + 灰 得到 


: Wi 


■ + w m . 


E[ei|e + w] = 

k + m 


因此， 


E[e|0 + W]= Et©! + e fc |0 + W] = ^—(Q + W). 

根据例 8 . 3 中条件均值的公式，运用到本题的情况（零4均值、单观察值)，得 
到条件期望的形式为 


(9 + W)/a^ 
(l/a|) + (1/a^) - 

与这里的答案是一致的. 




-(0 + W ), 


( C ) 回忆独立的泊松随机变量的和的分布还是泊松分布.因此 （&) 中的论证可以将 e 和 
w 看作 A (对应/ X )个均值为1独立泊松随机变量之和，即得 


E[0|0 + W] 


A + // 


(0 + ^). 
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8.4 节贝叶斯线性最小均方估计 

14. 考虑例 8.11 中的随机变量 G) 和 X •求 0 的基于 X 的线性最小均方估计量以及相应的 
均方误差. 

15. 对于习题11中的购物车模型，找出最大后验概率、最小均方和线性最小均方估计量，并 
画出它们的条件均方误差关于观测到购物车编号的函数 • 

16. 随机变量 X 和 0 的联合密度函数形式为 


fx ， e ( x ，0) = 


c , 若 ( a :，0) 6 
0,其他， 


其中 C 是常数而 S 是集合 

5 = {( 0 ：， 61 )| 0 <*< 2 , 0彡6> 彡2, x - 1 ^ 6> ^ x }. 

现希望基于 X 来估计 ©. 

( a ) 找出 © 的最小均方估计 g{x). 

( b ) 计算 E [(0 - 5 ( X )) 2 | X = x ], E [ 0 ( X )] 和 var ( 5 ( X )). 

( c ) 计算均方误差 E [(0-0( X )) 2 ]. 它和 E [ vax (0| X )] 是一样的吗？ 

( d ) 用全期望公式计算 vaK ©). 

( e ) 求0的基于 X 的线性最小均方估计量，并计算其均方误差. 

17. e 是已知均值为 / i 方差为 < t 2 的正随机变量，将基于具有形式 x = Vew 的测量值来 
进行估计.假设 W 与0独立，其均值为0,方差为1且具有已知的四阶矩 E [ W 4 ]. 因此, 
给定0的情况下 X 的条件均值和方差分别为0和 ©• 我们的目的是在给定观测的情况 
下来估计 X 的条件方差 0. 试分别找出 e 基于 x 的最小均方估计量以及基于 X 2 的 
线性最小均方估计量. 

18. 吞下的蒲丰针 • 医生正在医治一个不小心吞下一根针的病人.决定要不要做手术的关键 
是未知的针的长度0，假设服从0到 z (> 0) 之间的均勻分布.希望基于 X 射线下投影长 
度 X 来估计 0. 建立二维坐标系，记 


X = 0 cosW ， 

其中 W 是针和某一轴形成的夹角（锐角). 假设撕 服从区间 [0,^/2] 的均匀分布，并且 
与0独立. 

( a ) 试求最小均方估计量 E [ e \ X ]. 特别地，写出 F x ] e { x \ e ), fx \ s ( x \ e ), f x ( x ), f elx 
{ e \ x ), 并计算 e[©|x = x ]. 提示： 下面的公式将很 有用： 

/ a b 7^ da=iog(a+x/ ^^，rvsfef dQ=v/ ^^t- 

( b ) 试求 0 基于 X 的线性最小均方估计以及相应均方误差. 

19. 光通信系统中的光电探测器，对给定时间区间内到达的光子进行计数.用户通过开关光 
子传送器来传送信息.假设传送器开着的概率是 P . 当传送器开着的时候，传送过来的光 
子的个数0服从均值为 A 的泊松分布.传送器关着的时候不传送光子. 
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遗憾的是，不论传送器是关还是开，由于“发射噪声”现象的存在，光子都有可能被 
探测到.发射噪声被探测到的个数 iV 服从均值为 M 的泊松分布.因此，探测到光子的总 
数 X 在传送器开着的时候是 Q + N , 关着的时候是 JV . 假设 e 和 iV 是独立的，于是 
& + N 服从均值为 A + M 的泊松分布. 

( a ) 给定光电探测器探测到的光子数 fc ， 传送器开着的概率是多少？ 

( b ) 描述判断传送器是否开着的最大后验概率准则. 

( c ) 基于探测到的光子个数，找出传送光子个数的线性最小均方估计. 

20 -*球形不变分布密度函数的 估计. e 和 x 是连续型随机变量，其联合分布密度形式为 

fe,x(0,x) = h(q(e,x)), 

其中/!是非负标量函数， q ( 9 , x ) 是二次函数,其形式为 

q ( e , x ) = a(e - Of + b{x - xf - 2c{0 - e )( x - x ). 

这里 a _ 0, b, c, 0, X 是一些标量.对于任意 x ( E [0 |X = x) 有限且形式固定)，给出最小 
均方估计和线性最小均方 估计. 假设对于所有的61,3；, q(9,x) ^0,h 单调递减.给出最 
大后验概率估计并且说明它和最小均方估计以及线性最小均方估计是一致的_ 

解0的后验概率密度是 


fe\x{8\x ) = 


fe,x(0,x) = h(g(6,x)) 
fx(x) f x (x) - 


为推导最小均方和线性最小均方估计，首先考虑最大后验概率估计，假设对于所有的^ 
g (0， a :) ^0,h 单调 递减. 最大后验概率估计使得 h(q(d,x)) 达到最大，又因为 ft 是减函 
数，则要选0使得 q { 9 , x ) 达到最小.令 q ( e , x ) 导数为0,得到 


0 = 0 + ^(x — x ). 

(这里用到 结论： 非负二次函数的最小值在导数为0处取得 0® 

现在将要说明彡和最小均方估计和线性最小均方估计是等价的（不需要假设对于所 
有的 0 , 0 ：， q ( e , x ) ^ o,h 单调递减). 

记 

e-e = e-e + ^(x-x), 

将 q { 0 , x ) 的表达式代入并经过一些代数计算得^|】 


q ( 0 , x ) = a ( e - 6) 2 +( b -^ y x ~ x )\ 

因此，对于任意给定的 a ;, 后验概率密度是关于纟对称的函数.这 说明纟 和条件均值 
E [ e|X = a :] 是相等的，只要 E [0 |x = x ] 有限，就有 

E[0|X] = 0+^(X-x). 

由于 E [0| X ] 是 X 的线性函数，因而也是线性最小均方估计量. 

①这说明6是0的最大后验概率估计.——译者注 
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21.* 基于两个观测的线性最小均方 估计. 考虑已知均值和方差的3个随机变量和 y . 
假设 vax ( X ) > \ p ( X , Y )\^ l . 给出基于 X 和 Y 的0的线性最小均 

方估计. 

解考虑形式为 Q = aX + bY + c 的线性估计量，选择 a A c 使得均方误差 E [(0 - 
aX - bY - c ) 2 ] 达到最小.假设已经 选定. 不难验证， 

c = E [0] — oE [ X ] - bE [ Y ]. 

使 E [(0 - aX-bY - c ) 2 ] 达到 最小. 接下来的问题就变为选择 a , & 使下式达到最小 
E [((0 — E[e]) - a(X — E [ X ]) - b(Y - E [ Y ])) 2 ]. 

将上式展开，得到 


var (0) + a \ ai ( X ) + b 2 var ( y ) - 2 acov (0, X ) - 2 bcov (@, Y ) + 2 afecov ( X , F ). 

假设 X , Y 是不相关的，则有 cov ( X , r ) =0. 将均方误差的表达式分别对 a 和&求 
导，令导数等于0得到 


cov (0, X ) , _ cov ( QY ) 


rW 


var ( y ) 


因此,线性最小均方估计量是 


6 =酬 + 雙 - 利 + - E[yl) . 

如果 X , y 是相关的，同样对求偏导数，令式子为 0. 得到一组两个关于 a ， 6的 
线性方程，解得 、，、 

vax ( y ) cov (@, X ) — cov (0, y ) cov ( X , Y ) 
a= var ( X ) var ( y )- cov 2 ( A ：, r ) ， 

var ( X ) cov (0, y ) - cov (0, X ) cov ( X , Y ) 

~ var ( X ) vax ( F ) - cov 2 ( X , y ) 

注意,条件 | p ( x , y )| ^ l 可保证上面两式的分母都不为 o . 

22.* 基于多观测的线性最小均方估计.设 e 是均值为 M 方差为 < rE 的随机变量，，…， 

是具有以下形式的多个观测值 

兄=0 +恥， 

其中观测误差奶是均值为0方差为 a ? 的随机变量，并且假设0,^!,••- , W „ 是各不 
相关的.通过取遍 ax , ••- , a n , b 使得下面函数取到最小值 


h(ai, . 


, b ) = 臺 E [(㊀ - aiX \ _ ■一 a n X n — b ) 2 ], 


指出基于观测值 ... ,的 e 的线性最小均方估计量是 

A +J2i=i X i/ a 'i 

B = ~ElUVd. 
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解下面将说明取得最小值时的 cu ，... ， a „, &是 


6 * = 


咖 I » _ 

EIUVa 2 ’ aj = 


i/d 


j = !,■■■ ,n. 


为此，只要说明 al , ■■- , al , b * 是满足 ft 关于 ai ，. _ • ， a „， &的偏导数等于 0 的系数即可 
(对于非负二次函数圮导数取值为0的点即为最小值).对 h 求导得 


§ , . = E [( E a *- 1 )©+ E ^ i + d . 

°i L 、 i=l / i—i ■ 


SU =E h((S a H e+ |； a:Wi+6 ，)] 

根据 6*, a * 的表达式可知 


S a : - 1 = 




利用这个等式以及事实 


得到 

再利用这些等式 


E[9] = E[Wi] = 0, 

亂， = E [(-i) e+ |j a W] =◦■ 


E [ Xi(〆 一 ©)] = E [(0 - /i + Wi + ")("-©)] = - o - Q , 

HXiWi] = E [(0 + WijWi] = af, 对所有 i , 

HXjWi] = E [(0 + W^Wi] = 0, 对所有 i 

得到 

尝 IW = E W(! - 9 9 + ㈣ + 6 0] 

=- 0)^- + F a*Wi^ j 

= ~ a o ~ + a*al 
= 0 , 

其中最后一个等式成立是由于 fe *, a * 的定义. 

23 -*最小均方估计的性质.设 e 和 x 是两个具有正方差的随机变量.令是 e 基于义 
的线性最小均方估计量， 0 L = 0 L - 0是相应误差.同样地，令白是 © 基于久的最小 
均方估计量 E [0| X ], 0 = 0-0 是相应误差. 

( a ) 证明估计误差满足 

E [0 z ,] = 0. 
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( b ) 证明估计误差和观测 X 不相关. 

( c ) 证明 e 的方差可以分解为 

var (0) = var (0) + var (0 i ,). 

⑷证明最小均方估计的估计误差 © 与观测 X 的任何函数 KX ) 不相关 • 

( e ) 证明§未必与 X 独立 • 

( f ) 证明线性最小均方估计误差白 r 未必与观测 X 的所有函数 KX ) 都不相关，且 
E [0 i,|X = x ] 对于所有 X 未必等于 0. 

解 （ a ) 依线性最小均方估计的公式 

0, = E[e ] + ^|^(X-E[X]). 

两边取期望得到 E [@ L ] = E [ e ], 或 e [0 l ] = 0. 

( b ) 利用白 i 的公式得到 

E [(0 L - 0) X ] =E ^ E [0] + cov g x) (x 一 E [ X ])) X - ex] 

=E [ E [0 ]x + cov( ® ,x) ( X 2 — XE [ X ]) - ex ] 

= cov ( e , X ) E [ X 2 ] _ cov (0, X )( E [ X ]) 2 _ ( E [ 0X ] — e [0] E [ X ]) 

— 二学一 i ) 

= cov ( e , x ) 

= 0 . 

由于⑷中的事实 E [§ L ] = 0,说明 cov (0 L , X ) = E [ GlX ] - E [0 l ] E [ X ] = 0 
( E [0 lX ] = 0, 这刚刚证得)，即估计误差和观测 X 不相关. 

( c ) 由于 cov ( Q l , X ) = 0,而又是 X 的一个线性函数，于是有 cov ( 0 l ,& l ) = 0. 
因此， 

vax (0) = var (0 i , — Ql ) = var (0 z ,) + var (—0 z ,) + 2 cov (0 l , —0 z ,) 

= var (@ i ,) + var (0 z ,) — 2 cov (0 l , Ql ) = var (0 z ,) + vax (@ L ). 

( d ) 这是由于 E [0] = 0 以及 

E [0/ l ( X )] = E [( E [©| X ] - e)/i(X)] 

= E [ E [0| X ] ft ( X )] - E [ e / i ( X )] 
= E [ E [ eh ( X )\ X ]]- E [ Qh ( X )] 

= E [0/ i ( X )] - E [0/ i ( X )] 
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( e ) 此处举出一个 反例： 设0和 X 是离散随机变量具有联合分布 

㈣ 刺={ 1/3 ’ 若. ) = (0’0)，(1，1)’(- M )， 

\ o , 其他. 

在这个例子中 ， X = |0|， 这样 X 和0不相互独立.注意到对于任意可能的取值 2 
有 E [0 |x = a ;] = 0,因而 E [0| X ] = 0. 所以有0 = -0. 由于 X 和 e 不相互独 
立， X 和§也不相互独立. 

( f ) e 和 X 是离散随机变量具有联合分布列 

P e X ( e , X )= l 1/3 ' 若心 ) = (0,0)，(1，1)，( W )， 

， ( o , 其他 • 

这个例子中 ， e == | X |. 注意到 E [ X ] = 0和 E [0 X ] = 0,所以 X 和0是不相关的.依线 
性最小均方估计的 定义启 i = E [0] = 2 / 3 , = (2/3) — 0 = (2/3) 一 | X | 与 X 不独立. 

进一步有 = x ) = (2/3) — | X |， 这依赖于 a ; = 0或 | a ;| = 1 取值为2/3和 —1/3. 

24 /基于多观测的线性最小均方估计的性质.令0，不，…，是给定方差和协方差的随机 
变量. &是 © 的基于 Xi ,... , x n 的线性最小均方估计量， e L = Q L - e 是相应误 
差.证明 E [6 z ,] = 0,且对每个 i , 心和 足不相关. 

解 巧证明对于所有 i, Ete^Xi] = o. 考虑一个新的线性估 计量& + a 不，其中^为 
一个标量参数.由于白 i 是线性最小均方估计量，它的均方误差 E[(e L -e) 2 ] 不会超过 
新估计量的均方误差 h ( a ) = +aXi - €)) 2 ].因此，函数/^)在 a = 0的时候取 

到最小值，即 ( dh / da )( 0 ) = 0. 注意到 

h { a ) = E [(0 l + aXi ) 2 ] = E [© i ] + aE ^^ Xi ] + a 2 E [ X t 2 ]. 

( dVda )(0) = 0 和 = 0 是等价的. 

现在来重复上面的论证，但是用常数1来代替随机变量 Xi . 经过相同的步骤，得到 
E [6 z ,] = 0. 最后注意， 

cov ( e L , Xi ) = E [0 z , Xi ] - E [心] E [ Xi ] = 0 - 0 . E [ Xi ] = 0, 

所以心 和不 是不相关的. 
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在第8章，我们将未知参数看成随机变量，利用贝叶斯方法进行统计推断.我 
们所处理的所有例子都是单一的完全确定的概率模型，并能够利用贝叶斯准则对它 
们进行推导和计算. 

相比之下，本章采用一种与之完全不同的 原理： 认为未知参数0是确定的（非 
随机）而取值未知.观测 X 是随机的，根据取值的不同，服从若 X 是离 
散的）或 / x ( z ;0)( 若义是连续 的). 因此，我们将同时处理多重候选模型，每个模型 
对应0的一个可能的取值，而不是仅仅处理单一的概率 模型. 在这里，一个“好”的 
假设检验或者估计过程是指在每个候选模型为真模型时，都拥有某些理想的性质- 
某些时候，我们也会采用保守的 观点： 一个过程不会被认为达到我们的要求，除非 
它在0取到最坏值的情况下也能保持好的效果 • 


Px (-,0) ,|- 

1 观察过程 


图 9.1 经典推断模型的总结.对于 0 的每个取值，有分布 Px(x-,9). 利用观测 X 的取值 x 
计算点估计，或者选择一个假设，等等 

总的来说，在我们的记号中，概率和期望都标明了相应的0 的值. 比如，记 
E 办( X )]为随机变量 h ( X ) 的期望，不过在求期望的过程中， X 的分布参数为 0. 
类似地,用记号 P e ( A ) 表示一个事件 A 的 概率. 需要注意的是，这里指示 P 0 ( A ) 对 
于0的依赖性仅仅是函数上的依赖性，而不像贝叶斯分析中那样，0的出现意味着 
相应的概率是条件概率. 

本章前面两节将介绍参数估计，重点是最大似然估计和线性回归方法，经常涉 
及的是独立同分布的观测值.这里的问题和第8章讨论贝叶斯估计量是类似的•我 
们的目标是找到那些具有优良性能的估计量（观测值的函数).但是，选取的准则会 
有所不同，因为它们必须面对未知参数的所有可能取值.比如说，我们的选取准则 
是要求估计误差的期望为 0( 对一切0的值都成立)，或者对于未知参数的所有可能 
取值，估计误差在很大的概率下很小. 

第3节将讨论简单假设检验的问题.这里提及的方法和第8章中（贝叶斯）最 
大后验概率方法类似.特别地，我们计算每个假设成立的似然程度基于已经观测到 
的数据，并通过两个假设的似然程度的比值的某种门限值来选择假设. 

最后一节将讨论不同类型的假设检验问题.举一个例子，假设投掷一枚硬币 n 


点估计， 
选择假设， 
区间估计等 
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次，观测到由投掷结果（正面或反面）组成的一个序列，我们想知道这个硬币是否 
均勻.需要检验的主要假设是 p = I/ 2 是否成立，其中 p 是正面朝上的未知概率. 
备择假设？I/ 2 是复合的，因为它由很多甚至可能是无限多的子假设组成（比如 
P = 0.1,p = 0. 499 9等).很明显，在观测值个数不是很大的情况下，没有一种可靠 
的方法能够区分 p = 0.5 还是 p = 0.499 9. 这类问题通常利用显著性检验的方法来 
解决.有人 会问： 观测数据和假设 p = 0.5 是否一致？粗糙地说，在某假设基础上， 
如果观测到的数据看起来不像是在这个假设之下“偶然”产生的，那么该假设将被 
拒绝. 


本章的主要术语、问题和方法 

• 经典统计 将未知参数看作是待确定的常数.对于未知参数的每个可能取值 
都假设一个单独的概率模型. 

• 在 参数估计中， 希望找到在未知参数取任何可能值的情况下都基本正确的 
估计. 

• 在 假设检验中， 未知参数对应于对立假设取有限的 m(m ^ 2) 个值•想要 
选择一个假设，使得在任何可能的假设下错误的概率最小. 

• 在显著性检验中， 希望接受或者拒绝一个简单的假设，保持错误拒绝的概 
率适当的小. 

• 本章主要的经典推断方法. 

( a ) 最大似然 估计： 选择参数使得被观测到的数据“最有可能”出现，比如 
使获得当前数据的概率最大（见 9.1 节). 

( b ) 线性 回归： 在这样的意义下找出一组成对数据之间最合适的线性 关系： 
这种线性关系使得模型与真实数据之间差值的平方和最小（见 9 .2 节). 

⑷ 似然比 检验： 给定两个假设，根据它们发生“可能性”的比值选择其一， 
使得犯错的概率适当小（见 9.3 节). 

( d ) 显著性 检验： 给定一个假设，当且仅当观测数据落在某个拒绝域的时 
候拒绝该假设.特别设计的拒绝域使得错误拒绝的概率低于某个给定 
阈值（见 9.4 节). 


9.1 经典参数估计 

本节利用经典的方法讨论参数估计问题，所谓经典的方法就是将参数 0 看作未 
知常数，而不是随机变量.先介绍一些定义和估计量的相关性质.然后讨论最大似 
然估计量，它可以看作是经典统计中与贝叶斯最大后验概率估计量相对应的部分. 
最后关注简单但是重要的估计未知均值的例子，如果可能的话估计未知的方差.本 
章还讨论相关的问题，包括建立一个有很大概率包含未知参数的区间（一个“置信 
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区间 ”）. 这里用到的很重要的方法是大数定律和中心极限定理（参见第5章) • 

9.1.1 估计量的性质 

给定观测X =( 右，… ,Xn), 估计 量是指形式为0 = g { X ) 的随机变量.注意， 
由于X的分布依赖于0，因而白的分布也 一样. 估计量白的取值称为 估计值 • 

有时候，尤其是当我们对观测数目 n 起的作用感兴趣时，用白„表示一个估计 
量.当 然将& 看作是一系列估计量（分别对应 n 的不同取值）也是合适的.按照 
一般的定义， 0„ 的均值和方差记为 E^„] 和 var e (0„). 和 var e (0 n ) 都是 

e 的数值函数,但为简单起见，情况清楚的时候就不说明这种依赖性了. 

下面介绍和估计量的各种性质相关的一些术语. 


估计量的相关术语 

0„是未知参数0的一个估 计量， 也即关于 n 个的观测不，…，忍(服从依 
赖参数0的分布）的一个函数 • 

• 估计误差， 记为白„，定义为 ©n = ©n - 6 . 

• 估计量 的偏差 ，记为 b 9 (0 n ), 是估计误差的期望值： 

be(0n) = E e [@„] - 9 . 

• 0„的期望值、方差和偏差都依赖于 A 而估计误差同时还依赖于观测 

4… ,x n . 

•称 无偏 ，若 E e [0 n ] = 0对于0所有可能的取值都成立. 

•称 白„渐近无偏 ，若 lim ^ ooE^ej = 0对于0所有可能的取值都成立. 
•称^ 1 为0的相 合估计 序列，如果对于参数所有可能的真值 A 序列^ x 依 
概率收敛到 


我们不可能指望作为随机观测的函数（估计量）正好和未知参数真值0相等. 
因此，估计误差一般非零.另一方面，对于0所有可能的取值，如果平均估计误差是 
零，则得到一个无偏的估计量，这是我们想要的性质.渐近无偏估计只需要随着观 
测数目 n 的增加，估计量变得无偏即可，这在 n 比较大的情况下也是所乐见的. 

除了偏差 b e (0 n ), 我们往往对估计误差的大小感兴趣.均方误差 E e [02] 可以 
捕捉到这一信息.下面的公式将均方误差、偏差和的方差联系在一起:® 

Ee[0^] = b^(0„) + var e (© n ). 


①这是公式 E [ X 2 ] = ( E [ X ]) 2 + var ( X ) 的应用，其中 X = 0„而期望与相应于0的分布有关.我们 
也利用了事实 E e [0 n ] = 和 var e (0 n ) = var s (0 n - d) = var 0 (©„). 
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这个公式很重要，因为在很多统计问题中都存在等式右边两项的平衡.方差的减少 
总是伴随着偏差的增大.当然，一个好的估计量会让两项的取值都比较小. 

下面将讨论一些具体的估计方法，首先是最大似然估计.这是一种适用范围较 
广的估计方法，与之前贝叶斯推断中的最大后验概率估计有很多相似之处.然后我 
们会考虑简单但是重要的估计随机变量均值和方差的例子.这将和第5章我们讨 
论的大数定律有一些联系. 

9.1.2 最大似然估计 

设观测向量 ^ = (4 ，…，忍）的联合分布列为财…，〜; 0)(0 
可为向量或数量)，其中: r = (n ，…，〜）为尤的观察值.那么，最大似然估计是使 
(0 的）数值函数财(:^，… , x n -,6) 达到最大的参数值（见图 9.2): 

6 n = argmaxp x (xi, •• - ,x n -,6). 

当 X 为连续型随机变量时，可将同样的方法用于联合概率密度函数 

= argmax/ x (a；i, ••- ,x n \6). 

称 Px(x;6)(f x (x-,e),^ X 连续型随机变量）为似然函数. 



图 9 . 2 最大似然估计的说明 ：假设 x 是离散的，0在有限集 { e lr -- , e m } 中取值.给定观测 
值X = a:， 对于每个 i， 可计算得到似然函数 p x (x-,0i) 的值，从而可以选出使 p x (x;6) 
最大的 6 > 的取值 

很多应用中都假设观测 Xi 独立,从而对于每个是离散的随机变量，似然 
函数的形式为 

Pa: ( 工1 ， . ■■ ,x n -,9) = Wpxi{xi',6). 

i=l 

在这种情况下，为了分析和计算的方便可让其对数达到最大，下面的式子称为对数 

似然函数， 


In px{xi, - - - ,x n ;6) = In Y\_pXi{xi\ 6>)= 乞 In p Xi [Xi_,6). 
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当 X 为连续型随机变量时，类似地用概率密度函数取代分布列，取遍0使得下面 
表达式值最大 

n n 

In /x(a ； i ， … ，工 =ln Yl/x^e) = X) ln fx^O). 

i=l i=l 

此处对于术语“似然”需要一些的 解释. 对于已知 X 的观测值: r ， P x ( a ： ; 0) 不 
是未知参数等于0的概率.事实上，这是当参数取值为0时，观测值$可能出现的 
概率.因此，为取定0的估计值时，我们会问这样的 问题： 基于已知的观测，0取什 
么值可使观察值最可能出现呢？这就是术语“似然”的本意 • 

回忆在贝叶斯最大后验概率估计中，估计的选择是使表达式 PeWPx |0( 邮）取 
遍0达到最大，其中 Pe ( e ) 是包含一个未知离散参数0先验分 布列. 因而若将 
PX ( X ] 6) 看作条件概率密度函数，可将最大似然估计解释为具有均勻先验的最大后 
验概率估计.所谓均勻先验分布列是指对于所有0都具有一样的先验概率，也即没 
有任何信息的先验分 布列. 同样地，对于连续的取值有界的 A 可将最大似然估计 
解释为具有均匀先验密度的最大后验概率估计，其均匀先验密度为 fs (8) 三 c ^ e . 
例 9.1 让我们来回顾例 8.2, 朱丽叶迟到的时间为 X ，服从[0, 0] 的均匀分布，其中 
e 是未知参数.在那个例子中，我们用服从均勻先验概率分布密度 / e ⑻ ([0,1] 区间 
上的均匀分布）的随机变量 e 建立参数的模型，并说明了最大后验概率估计是; T . 
在本节的经典内容中，没有先验，0被当作常数,但是最大似然估计仍是 6 = x . □ 
例 9.2 (伯努利随机变量的均值估计）现在我们希望根据 n 次独立投掷的结果 
X !, •• - , X n (Xi = 1若正面朝上，反之= 0) 来估计一枚不均勻的硬币正面朝上 
的概率这和例 8.8 中贝叶斯的做法类似,假设了一个均勻先验密度_发现后验概 
率密度函数的峰值（最大后验概率估计）出现在0 = fc / n , 其中 fc 是观测到正面向 
上的次数.从而 A :/ n 也是0的最大似然估计，所以最大似然估计量是 

n - \- X n 

9 " =- n - • 

估计量是无偏的.同时它具有相合性，因为根据弱大数定律，依概率收敛到 0. 

比较最大似然估计量和例 8.8 中用贝叶斯方法得到的线性最小均方估计量是 
很有意思的.我们说过，给了一个均匀先验，后验均值为 (fc + l)/(n + 2). 因此，最 
大似然估计 A ;/ n 与通过贝叶斯方法得到的线性最小均方估计量相近却不一样•然 
而当 n — oo 时，两个估计渐近 一致. □ 

例 9.3 (估计指数随机变量分布中的参数）考虑顾客到达某服务台的时间问题. 
设第 i 个顾客到达服务台时刻是 X . 假设第 i 个时间间隔 XfYi — (通常设 
Fo = 0) 服从未知参数为0的指数分布，并且随机变量 Xx ,--- 是相互独立的. 

(这是第6章学习的泊松到达模型 .） 现在想用观测 Xi ，…， X n 来估计0的值（可 
解释为到达的速率). 
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fx(x-,e) = Hfx^e) = n^- ex s 

i=l i=l 

对数似然函数是 

In f x {x] 6) = nln6 - 6y n , 

其中 „ 

Vn = 

i=l 

对沒求导得到 (n/6) - y n , 令其为零，得到在 0 > 0 上使 In f x ( x ； e ) 最大的是 
O n = n/y n . 所得估计量是 

Mr. 

它是到达间隔时间样本均值的倒数，可以解释为经验的到达速率. 

注意到由弱大数定律，当 n — oo 时， y „/ n 依概率收敛到 E [ Xi ] = 1/6 . 这说明 
0 n 依概率收敛到0，因而估计量是相合的. 口 

到目前为止，我们都在讨论单个未知参数的情况.下面的例子中含有二维参数. 
例9_ 4 (正态随机变量均值和方差的估计）考虑通过 n 个观测 Xi ，…， X n 来估 
计正态分布的均值和方差.参数向量为0= (^,1；). 相应的似然函数是 

fx(x-,n,v) = 

通过计算上式可以写作® 

其中 m n 是随机变量 

m u = Xj 
n 


①为核实之，对于 i = l ， ... ， n, 


(xi - fj,) 2 = (xi ~m n +m n - m) 2 = (xi m n ) 2 + (m n - /i) 2 + 2(xi m n )(m n - fx), 
对 i 求和并注意到 



396 第 9 章经典统计推断 


的取值，4是随机变量 n 

n i=l 

的取值.对数似然函数是 

m / ,(，； - M 2,) 

将上式分别对 M 和《求导，令所得导数为零，得到估计值和估计量， 

谷 n = (m n , s^), Q n = (M n , S^). 

注意， M „ 是样本均值，同时究可以看成“样本方差”.易证， E 0 闳]当 n 增大时 
收敛到％因而离是渐近无偏的.同样运用弱大数定律可知， M n 和努分别是 M 
和 r 的相合估计量. □ 

最大似然估计有一些明显的性质.比如说，它遵 循不变 原理： 如果白„是0的 
最大似然估计,那么对于任意关于0 —一映射的函数 / I , C = 的最大似然估计 

是 h ( Q n ). 对于独立同分布的观测，在一些适合的假设条件下，最大似然估计量是 
相合的. 

另一个有趣的性质是当0是标量参数的时候，在某些合适的条件下,最大似然 
估计量具有渐近正态性质.特别地，可以看见 (0„-0)/ a (0 n ) 的分布接近标准正态 
分布，其中 是心 的方差.因此，如果我们还能够估计 CT (0 n ), 就能进一步 
得到基于正态近似的误差方差估计.当0是向量参数，针对每个分量可以得到类似 
的结论. 


最大似然估计 

• 已知随机向量 X = …， X „) 的观察值为 x = (町，…，〜)，其联合分 

布列为(或连续情况下的联合概率密度函数 fx ( x -, e )). 

• 最大似然估计是使得似然函数财(3^)(或 fx ( x -, e )) 达到最大值时0的取 
值. 

• 关于0 —一映射的函数的最大似然估计是 h ( e n ), 其中 I 是 0 的最 
大似然估计. 

• 当随机变量义；是独立同分布时，在某些合适的假定条件下，最大似然估 
计的每个分量都具有相合性且渐近正态. 


9.1.3 随机变量均值和方差的估计 

现在来讨论一个简单而重要的 问题： 如何估计一个概率分布的均值和方差.这 
个问题与之前例 9.4 讨论的问题有些类似，不同的是，此处没有正态分布的假设.事 
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实上这里展示的估计量不需要用到与 px ( x ;6 )m fx ( x •，的，当 X 为连续型随机变 
量时）有关的知识. 

假设观测 …， X n 是独立同分布的，均值为未知参数 0. 0最自然的估计量 
是样本 均值： 

,, -^l H -+ X n 

Mn= n . 

由于 E e [ M „] = E e [ X ] = 6, 因而此估计量是无偏的.它的均方误差和方差相等，是 
v / n , 其中《是不的 方差. 由计算看出， M „ 的均方误差并不依赖于 0. 更进一步， 
由弱大数定律，估计量依概率收敛到0,因而是具有相合性. 

样本均值未必是方差最小的估计量.比如说，考虑估计量台„ = 0,完全忽略观 
测却是零的一个估计•白 „ 的方差是零，但偏差 b e ( 0 „) = -e. 特别地，依赖 0 的均 
方误差为沪. 

下一个例子将比较样本均值和在 8.2 节特定假设下推导的贝叶斯最大后验概 
率估计量. 

例 9 . 5 假设观测 Xi ，…， X n 是正态独立同分布的，具有共同的未知均值0和已 
知方差 I 在例 8 .3中应用的是贝叶斯方法，假设参数0服从正态的先验分布.对 
于0 的先验均值是零的情况，得到下面的估 计量： 

Q __ -^1 + — I- x n 


这个估计量是有偏的，因为 E fl [0 n ] = n 0/( n + 1) 且 b e (0 n ) = -0 /(n + 1) •但是 
lim ^ b ^ e ^^ O , 所以〜 是渐近无偏的.它的方差是 

var 0 (0„) = 


(n + I ) 2 ’ 


它比样本均值的方差 W / n 略小一些.注意这个例子的特殊之处， var e (0„) 不依赖于 
e. 均方误差等于 


蝴=桃)+ var e (0„) = + 1 -^ 2 . □ 

假设除了样本均值的估计量） 

M n = ^ + -'- + Xn , 

71 

我们还对方差 t 的估计量感兴趣.一个自然的选择是 

*^n = ^ - M nf , 

n i=l 

这和基于正态性假设的例 9.4 推导得出的最大似然估计量一致. 
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得到 


根据事实 

E^ v) [M n ] = 9, E (0 ， „)[Xf] =6 2 +v, ^ {e , v) [Ml] = 9 2 + 
E (e , u) [^] = 2M n '£Xi+nM^\ 


= E (e,v) 
= E (e,v) 


洁 ' 2 - 2m H 


^ + v -( e ^ v -) 


因此, 不是 t ； 的无偏估计量，尽管它是渐近无偏的 • 

通过适当的比例缩放可以得到一个方差的无偏估计量 


乾=占£(不- M ") 2 = 5湾. 


之前的计算说明 ^ 

E(e,u)[^] = 

因而驾是 u 的一个无偏估计量（对于所有 n ). 但是，当 n 很大的时候，驾和苟 
本质上是一样的. 


随机变量的均值和方差估计 

观测值…，是独立同分布的，均值0 和方差 v 均未知. 


• 样本均值 


M n = 


Xi + • • • + X n 


是0的一个无偏估计量，它的均方误差是 < n _ 
• 方差的估计量有两个 


玲 =i 亡 (足 -M„) 2 , sl = -^—j2{X i -M n f. 

U ，- 1 几一丄 


•当 Xi 服从正态分布，估计量和最大似然估计量相等.它有偏但是渐近 
无偏. 估计量筘是无偏的.当 n 很大的时候，方差的两个估计量本质上 
是一致的. 
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9.1.4 置信区间 

考虑未知参数0的一个估计量白„.除了估计所得的数值，我们还想建立一个 
所谓的置信区间.粗糙的说，这个区间以某个很髙的概率包含参数0的真值. 

为准确定义，我们首先固定一个希望达到的置信水平 1- a ， 其中 a 往往是个很 
小的数.然后用一个略小的估计量和一个略大的估计量0$代替点估计量©„， 
于是 0-^0+ J - 

Pe (©^ < 0 ^ 0^) ^ 1 - a , 

对于0每个可能的取值成立.注意，与一般估计量类似，白 [和 也是观测的函 
数，因而是其分布依赖0的随机变量.称[&，纪]为 （1 置信区间 • 

例 9 .6假设观测不是正态独立同分布的，均值0未知， 方差 v 已知.样本均值 
估计量 

0 „ = Xl + ••• + X - 
n 

是服从正态分布的， ® 均值为0，方差为 r / n . 利用标准正态分布的概率分布函数 
$(幻(可从正态分布表中査得)，有 $(1.96) = 0.975 = 1 - a /2 且得到 

Pfl (^ r ^ L96 )= 0 - 95 - 

可以整理为如下形式 

Pe (© n - 1.96^ ^ e ^ Q n + 1.96 y ^ = 0.95, 

这说明 

卜 -1.96 ©n + l -96 ^j 

是95%置信区间，分别定义 七和纪 为白 n _ 1.96^/ f 和白 n + 1.96^/ f . □ 

在之前的例子中，我们想用这样的表述来刻画一个95%置信 区间： 真实的参 
数落在置信区间内的概率是95%.但是这样的表述是模糊的.比如说，假设得到观 
测值之后得到置信区间 [-2.3,4.1], 我们不能说0有95%的概率落在[-2.3, 4.1], 因 
为这种表述并不包含任何随机变量.毕竟，在经典方法中，0是一个常数.实际上， 
短语“真实参数落在置信区间”中的随机项是置信区间，而不是真实参数. 

下面是一个具体的解释，假设0是固定的.我们运用相同的统计过程建立了很 
多个置信区间.比如每次获得 n 个独立的观测并建立95%置信区间.可以预期有 
95%的置信区间将包含 0. 无论0的值是多少，这总是正确的. 

①这里用的是独立正态随机变量的和还是正态的重要事实，参见第4章. 
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置信区间 

• 对于一维的未知参数0， 其置信区间是 一个以很高概率包括0的区间，端 
点为 七和兔 . 

• 和白；!：是依赖于观测 Xi ,-- - , x n 的随机变量. 

• (1-«)置信区间对于0所有可能的取值满足 

P e (0- ^0<0+)^ l - a . 


通常情况下，置信区间是包含估计量白„的区间.更进一步，在许多符合要求 
的置信区间中，我们喜欢长度最短的.但是，这并不容易找到，因为误差 - 0 的 
分布或者是未知的，或者是依赖于0的.所幸在很多重要的模型中，- 0的分布 
是渐近正态无偏的.这就是说随机变量 

Qn-0 

yvar 0 (6„) 

的概率分布函数在 n 增加的时候趋于标准正态概率分布函数 （ 对于0所有可能的 
取值).现在我们可以像例 9.6 —样,导出近似的置信区间. 

9.1.5 基于方差近似估计量的置信区间 

假设观测 X ;是正态独立同分布的，均值0和方差 r 均未知.用样本均值 

白 — Xi -I - h x n 

n n 

来估计0，用之前介绍的无偏估计量 

i=l 

来估计 i 特别地，用 Sl / n 来估计样本均值的方差 r / n . 给定 a ， 可以用上述估计 
和中心极限定理构造一个（近似 )1 - a 置信区间，即 

其中 2 由关系式 

$(z) = 1 -. 

和正态分布表得到，久是您的正平 方根. 例如，若 a = 0.05, 利用事实 $(1.96) = 
0.975 = 1 - a / 2 ( 从正态分布表中可知）得到近似95%置信区间的形式为 

[@n — 1.96-^p=, O n + 1.96-^p：| . 
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注意在这种方法中，两个不同的近似起了作用.首先，将^ 1 看成正态的随机 
变量； 其次,用估计 Sl / n 代替了的真实方差 《/ n . 

即 使在不 是正态随机变量的特殊情况下，上面建立的置信区间仍然是近似的. 
这是因为您 只是真实方差 v 的近似估计，而随机变量 

rr ， __ Vn(@ n — 0) 

n = — S n 

不是正态的.但是，对于正态的不， r „ 的概率密度函数不依赖于0和％可以明确 
地计算出来 •称； 的分布为自由度为 n - 1的 t - 分布① 类似标准正态分布的概率 
密度函数，它是对称钟形的，但是散布更广，尾部更重（见图 9.3). 感兴趣的各种区 
间的概率可以通过分布表查到，分布表类似于正态分布表.因此，当 Xi (近似）正 
态并且 n 相对较小的时候，下面给出的是更加精确的置信 区间： 

卜-令，& +令]， 

其中 z 由关系式 

U 和 1 — 晉， 

得到，是自由度为 n - 1的分布的概率分布函数， 2 的值可以通过查表得 
到.这些表可以在很多地方找到，下面给出了一个简略的版本. 



图 9.3 自由度为 n - 1的 分布的概率密度函数与标准正态概率密度函数的比较 


①分布具有很有意思的性质并且有确定的表达式，但是精确的公式对达到我们的目的并不重要.有 
时候它又被称作“学生分布”.这是1908年由受雇于都柏林酿酒厂的威廉 • 髙赛特发表的.他假 
冒学生的名义写了这篇文章，因为以他本人的名字发表文章在当时是被禁止的.髙赛特致力于挑 
选产量最好的大麦，但只有较小的样本数量. 
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另一方面，当 n 比较大（如 n 彡 50) 的时候, t - 分布和正态分布非常接近，因此 
可以直接用正态分布表（表9.1)_ 

表 9.1 t - 分 布表： 给定自由度为《 _ 1 时 *- 分布的概率分布函数屮„ 一 i(«) - 


0.100 

0.050 

0.025 

0.010 

0.005 

0.001 

1 

3.078 

6.314 

12.71 

31.82 

63.66 

318.3 

2 

1.886 

2.920 

4.303 

6.965 

9.925 

22.33 

3 

1.638 

2.353 

3.182 

4.541 

5.841 

10.21 

4 

1.533 

2.132 

2.776 

3.747 

4.604 

7.173 

5 

1.476 

2.015 

2.571 

3.365 

4.032 

5.893 

6 

1.440 

1.943 

2.447 

3.143 

3.707 

5.208 

7 

1.415 

1.895 

2.365 

2.998 

3.499 

4.785 

8 

1.397 

1.860 

2.306 

2.896 

3.355 

4.501 

9 

1.383 

1.833 

2.262 

2.821 

3.250 

4.297 

10 

1.372 

1.812 

2.228 

2.764 

3.169 

4.144 

11 

1.363 

1.796 

2.201 

2.718 

3.106 

4.025 

12 

1.356 

1.782 

2.179 

2.681 

3.055 

3.930 

13 

1.350 

1.771 

2.160 

2.650 

3.012 

3.852 

14 

1.345 

1.761 

2.145 

2.624 

2.977 

3.787 

15 

1.341 

1.753 

2.131 

2.602 

2.947 

3.733 

20 

1.325 

1.725 

2.086 

2.528 

2.845 

3.552 

30 

1.310 

1.697 

2.042 

2.457 

2.750 

3.385 

60 

1.296 

1.671 

2.000 

2.390 

2.660 

3.232 

120 

1,289 

1.658 

1.980 

2.358 

2.617 

3.160 

0 O 

1.282 

1.645 

1.960 

2.326 

2.576 

3.090 


表中左列是自由度 n -1, 顶行是尾部概率 A 顶行以下的每行是屯„ _ ；l (岣 =1 — y 9 中2的值 

例 9.7 利用电子天平得到一个物体重量的八次测量值.测量值是真实的重量加上 
服从正态分布均值为零方差未知的随机误差.假设每次观测直接的误差是相互独 
立的.得到结果 如下： 


0.554 7, 0.540 4, 0.636 4, 0.643 8, 0.491 7, 0.567 4, 0.556 4, 0.606 6. 






9.1 经典参数估计 403 


利用分布来计算95%置信区间.样本均值是 0.574 7, ©„ 方差的估计是 
I = n(n - 1) £(不) 2 = 3 . 295 2 • 10_4 ， 

、 ’ i=l 


因而 5„/ V ^ = 0.018 2. 根据 分布表，1 — 屯 7 (2.365) = 0.025 = a /2, 所以 

〜 (乾1 < 2 . 365 ) = 。_ 95 . 

0的95%置信区间为 

卜 — 2.365 备 0“ 2.365 刻= [0.531,0.618], 

与由正态分布表得到的置信区间 


@ n _ 1.96-^=, @„ + 1.96 




= 

y/n 


[0.539,0.610] 


相比，后者更窄，也即对于点估计6 = 0.574 7的精度更持乐观的态度. □ 

目前为止建立的近似置信区间依赖于未知方差的特殊估计量怒.然而，方差 
可能有不同的估计量或 近似. 比如，假设观测 X u ...， X n 是独立同分布的伯努利随 
机变量,未知均值0和方差 r = 0(1 —0) •除了您，方差的另一个近似是0„(1-©„). 
事实上，当 n 增加& 依概率收敛到0，因此 0„( l -0 n ) 也收敛到方差 t ； = 6{1-6). 
还有一种可能是观测到 0(1 — 0) 《1/4对于0 e [0, 1] 总成立，用1/4作为方差的保 
守估计.下面的例子就说明了这些选择. 

例 9 . 8 (选举问题）考虑5. 4 节例5_11的选举问题，我们想估计的是选民中支持 
某位候选人的比例 0. 收集了 n 个独立选民的回应 , X n , 其中将 X 看作伯 
努利随机变量，若第 i 位选民支持则= 1,否则为 0. 用样本均值台„来估计0， 
并用正态逼近方法来建立置信 区间. 但正态逼近方法需要对 X 的方差进行估计， 
而对于方差的估计,有不同的方法.为具体化，假设样本数为 n = 1 200的选民中 
有684位支持候选人，= 684/1 200 = 0.57. 

( a ) 如果用方差的估计 

i^ Xi ~ 

= ri99 ( 684 -( 1 -S) +( 12 。。 - 684 ).(°_S) 2 ) 


« 0.245, 
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并将& 看作均值0方差 0.245/1 200的正态随机变量，则得到95%置信区间 
I ". § n - 5„1 [ 1.96-\/0^245 „ 1.96 • V 0.2451 

卜 - 1 . 96 为 0 ^ 1 . 96 ^^ 0 . 57 -^=^, 0 . 57 + 

= [0.542, 0.598], 

( b ) 方差估计 

® n(1 ~®" ) = S( 1_ Y^o) = o. 245 . 

其结果和 （ a ) 是一样的（精确到三位小数)，所以95%置信区间为 

' V0„(l-0n) - 一 „(1-0„)— 

0„ - 1.96-^ ~~~^= -，0„ + 1.96^ ~-^= -， 

还是 [0.542, 0.598], 

( c ) 利用方差的上界1/4作为方差的估计，得到的置信区间是 

+ 1 聲 卜—^，斷^ ] 

= [0.542, 0.599], 

比起 （ a ) 和 （ b ) 的结果，仅仅宽了一点，实际上和前面的几乎一样 • 

图 9.4 比较了利用方法 （ b ) 和 （ c ) 得到的置信区间，其中固定心= 0.57,样本 
数量在 n = 10到 n = 1 000之间变化.可以看见，当 n 在几百的时候（这也是典型 
的调査样本量)，区别很小.但是需要注意，若 n 的取值很小的时候，两者的差异是 
十分明显的.因此，在 n 比较小的时候，需要特别小心. □ 



图 9.4 例 9.8 中方法 ㈨ 和⑷中的近似方法构造的置信区间， 其中心 = 0.57 是固定的， 
样本数量在 n = 10到 n = 1 000之间变化 
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9.2 线性回归 

本节讨论的问题是用线性回归的方法对感兴趣的两个或更多个变量之间的关 
系建立模型.这种方法的一个特 征是： 它可以由最小二乘法完成操作，而不需要任 
何概率上的解释.当然,线性回归也可以在各种概率框架之下进行解释. 

首先考虑两个变量的情况，然后推广到多个变量之间关系的讨论.现在想要对 
感兴趣的两个变量 x 和 y 的关系建模（例如受教育的年数和收入)，为此收集了一 
些数据（％ 济 )， i = 1，…， n . 例如: Ei 是第 i 个个体受教育的年数,是相应的年收 
入.通常一个关于样本的二维散点图会显示: Ti 和队之间有规律的、近似线性的关 
系.于是自然想建立如下形式的线性模型 

y^0 o -\- e x x, 

其中知和仏是未知的待估参数. 

特别地，给定参数的估计知和夾，模型对而相应的％的预测是 

Vi = 0 q + §iXi. 

一般地，弘和已知的队的值会有差异 

Vi = yi-yi, 

称为第 i 个残差. 残差小的估计被认为是很好地拟合了数据.为此,线性回归在所 
有 办和心 中选择使得残差平方和 

n n 

'YliVi-Vif = ^2(yi -0 o - OiXi) 2 
i=l i=l 

最小的知和 A 作为未知参数办 和心 的估计.图 9.5 作了说明. 



图 9.5 由数据集 {( Xi , yi ),i = 1，... ， rz } 出发，选择0 0 和 01 ，使之成为残差 yi - 9 0 - 9 lXi 
的平方和最小的估计，得到模型 y = e 0 + e lX 
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注意，在实际问题中，关于线性模型的假定未必是正确的，比如可能实 p 上两 
个变量之间的关系是非线性关系_因此在实际工作中，我们往往首先需要进行模型 
的鉴定工作，就是检査数据是否支持线性模型的 假设. 只有经过鉴定，并确认我们 
所处理的模型是一个线性模型的情况下，我们才应用最小二乘法去找出这个线性模 
型. 

为推导线性回归估计知和彡 i 的公式，我们发现一旦给定数据，残差平方和是 
关于 办和& 的二次函数.为求最小值，分别对如和心求导,再令导数为零.经过 
计算，得到解的简单显式表达式，总结如下 • 


线性回归 

给定 n 个数据对 { xi , yi ), 使得残差平方和最小的估计是 



例 9.9 比萨斜塔随着时间的推移倾斜得越来越厉害.下表记录了从 1975-1987 
年间塔上一固定点的位移（此点的实际位置和塔垂直的时候该点的位置的距离（米 
数 )） 的测量值. 


年份 1975 1976 1977 1978 1979 1980 1981 

倾斜 2.964 2 2.964 4 2.965 6 2.966 7 2.967 3 2.968 8 2.969 6 

年份 1982 1983 1984 1985 1986 1987 

倾斜 2.969 8 2.971 3 2.971 7 2.972 5 2.974 2 2.975 7 

现在用线性回归来估计模型 y = e 0 + e 1 x 中的参数％和心，其中 X 是年份 ， y 
是倾斜值.根据回归公式得到 

k= = 0.000 9, e 0 = y-e 1 x = 1.123 3, 

Ei=i( 而-工) 2 

其中 

1 n 1 n 
x — — Xi = 1981, y = — Vi — 2.969 4. 


估计的线性模型为 


y = 0.000 9 x +1.123 3, 
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见图 9.6. □ 



9.2.1 最小二乘公式的合理性① 

基于概率论的考虑，可从不同角度来说明最小二乘方法的合理性. 

( a ) 最大似然（线性模型，正态噪 声). 假设而是给定的数（不是随机变量) ，队 
是随机变量 X 的实现， K 的模型为 

Yi=0 0 + 6iXi + Wi, i = 1, - ■ ■ ,n, 

其中恥是均值为零，方差为 a 2 的正态独立同分布随机变量.因而 K 也是独立的 
正态随机变量，均值 Oo + diXi , 方差 cr 2 . 似然函数的形式为 

池一 5忐 - p {— 

似然函数达到最大等价于表达式中的指数部分达到最大，即残差平方和最小.因而， 
基于最小二乘法的参数办和心的线性回归估计可以看作是 y 的期望具有线性结 
构的正态模型中参 数办和 &的最大似然估计.事实上，当 k 与而有这种关系时， 
知 和& 的基于最小二乘法的估计是无偏 估计. 更进一步，估计的方差可以用简便 
的公式算得（参见本章末习题)，然后用 9.1 节中的方法建立如和心的置信区间. 

( b ) 近似贝叶斯线性最小均方估计（在可能的非线性模型中) •假设叫和 yi 
分别 是不和 X 的实现.不同数对 { XuYi ) 之间是独立同分布的，但是 足, X 的2 
维联合分布 未知. 考虑服从同一分布的另一独立数对 ( X 0 , y 0 ). 假设观测到并 

①跳过这一小节不会影响课程的连续性. 
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希望用线性估计量 fo = 00 + e . Xo 来估计％.从8. 4 节得知给定 X Q , 妁的线性最 
小均方估计量的形式为 

啊 + £ ^^。-啊)， 

也即 

01 = co U 00 = E [ y 0 ] - 0 iE [ Xo ]. 
var ( A 0 ) 

由于不知道 ( Xo , Yo ) 的分布，用5作为 E [ Xo ] 的估计，没为 E [ y 0 ] 的估计， 
x){ Vi - 扔 / n 为 cov ( Xo , Yo ) 的估计， EIU (而—旬为 var ( X 0 ) 的估计.将这些估 
计代入办和心的公式中，发现此处得到的线性回归参数估计在之前就已经给出 
了.值得注意的是这里的论断不需要线性模型正确性的假设. 

( c ) 近似贝叶斯线性最小均方估计（线性模型).假设数据对 { XuYi ) 独立同分 
布，和 （ b ) 中一样.还有附加的 假设： 数据对满足模型 

Yi = e 0 + OiXi + Wi, 

其中 m 是独立同分布的零均值噪声项 ，与足 独立.根据条件期望的最小均方性 
風可知 E [ Y 0 \ X 0 ] 在所有函数 s 中使得估计误差平方的期望 E [( y 0 - w ^)) 2 ] 最 
小.根据假设， E [ Yo \ Xo ] = 9 0 +9^0 .因而真实的参数咖和心使得 

E[(r 0 - e ' o - e [ x 0 ) 2 } 

达到最小.由弱大数定律，这个表达式是当 n — oo 时 

^ -^0~ 
i=l 

的极限.这说明通过使上述表达式（用叫和队分别代替 Xi 和 K ) 达到最小是使 
E [( y 0 - e ' 0 - ^ Xo ) 2 ] (真实参数）达到最小的较好的近似.而使这个表达式达到最小 
和使残差平方和达到最小是一样的. 

9.2.2 贝叶斯线性回归 ® 

线性模型和回归并不仅仅与经典推断方法相关.下面要说的是在贝叶斯框架 
中来学习它们.特别地，将町，…，知当作给定的数， ( yi ，…， y n ) 是向量 Y = 
( yi , …， y „) 的观测值，随机向量 K 满足线性关系 

= ©o + 0 iXj + Wi . 

这里 ， e = (00,0!) 是待估参数， , w n 是独立同分布的随机变量，均值为 
零，方差已知为 <7 2 .与贝叶斯哲学思想一致,将 e Q 和 eh 建模为随机变量.假设 
00,01, ^1, ••- 相互独立,00和均值为零，方差分别是4和 4. 

① 跳过这一小节不会影响课程的连续性. 
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基于 © o ,©!,^!,- - , W „ 都是正态随机变量的假设，现在可以利用最大后验 
概率方法来推导贝叶斯估计量.在所有办和化中让后验概率密度函数 f e{Y (0o, 
ei\yi, ■■- ,Vn) 最大.根据贝叶斯准则，后验概率密度函数是 ® 

/ e (沒 0 ,沒 i )/ y | e (2/ i ， … ，2 Mpo ，0 i )， 

再除以一个和 (0 o ,^ i ) 无关的归一化常数.根据正态性假设，表达式写成 

㈣ {- 爲卜 。{_ 备}|斗 

其中 c 是和 {6M 无关的正规范化常数.等价地，在所有办和^中使表达式 

^0 , ^1 , (Vi — 00 — XjOj) 2 

g 十 if 十 2^2 

最小.注意，这和前面经典推断中期望达到最小的表达式 Y：U{yi -知- M 

类似的（当 a 。 和足够大，可以忽略吨 /2 crg 和 6l/2al 则这两个最小化是一样 
的). 为求最小值，分别对办和&求导，再令导数为零.经过计算，得到如下解. 


贝叶斯线性估计 
• 模型： 

( a ) 假设有线性关系％ = 0 0 + ©jXi + Wi . 

( b ) 认为叫是已知常数. 

( c ) 随机变量 eieiWi ， … ， w „ 服从正态分布且独立. 

⑷随机变量 0 Q 和&均值为零，方差分别是4和 
( e ) 随机变量 m 均值为零，方差为 a 2 . 

• 估计 公式： 

给定数据对（而，奶)，和 © i 的极大后验概率估计是 

a a 2 打 

01 = - 2 +^Er=i(-i-^) 2 . gw— 句 ⑼-办 

其中 

1 n 1 n 
y = n ^ Vi ~ 


①注意这一段用到条件概率的概念，因为是在贝叶斯框架中. 
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这里有一胜注释 

( a ) 如果与4和4相比， a 2 很大,则得到知《 0, A « 0. 这种情况是噪声很 
大，观测基本被完全忽略，因而估计和先验均值（假设为零）是一样的- 

( b ) 如果让先验方差4和4增加到无穷大，那么不存在任何关于 0 Q 和01 
的有用的先验信息.在这种情况下，极大后验概率估计和 V 不相干，其结果就和之 
前推导的经典的线性回归公式一样. 

⑷为简单起见假设5 = 0•估计时 ， mm Yi 的取值 yi 的权重和其相关私 
的值是成比例的.这可以从直观上来解释 ：当而 很大， X 中的贡献就相对大， 
从而 K 含有关于咖有用的信息.反之， A 为0,观测 K 和$独立，进而可以被 
忽略. 

( d ) 估计禹和&是 yi 的线性函数,而不是 而的. 然而要记得，: Ti 是外生的、 
非随机的数，而％是随机变量 K 的观测值.因而从8. 4 节定义的意义上来说,最大 
后验概率估计量白0和白 i 是线性的_再看我们的正态性假设，这些估计量同时又 
是贝叶斯线性最小均方估计量和最小均方估计量（参考 8.4 节末尾的讨论 )• 

9.2.3 多元线性回归 

到目前为止，我们关于线性回归的讨论只包含了一 个解释变量， 记作 A 也即 
一元 回归. 其目标是建立一个用而的值来解释沾的观测值的模型.但是很多情况 
下，有很多潜在的解释变量（比如我们会考虑解释年收入的模型，它是关于年龄和 
受教育年数的函数)_这类的模型称为多 元回归 模型. 

举例来说，现在的数据由三元组的形式 { xuyuzi ) 组成，我们想估计参数 。，模 
型如下 

y + 02Z . 

比方说，对于随机样本中的第 i 个人，识可以是收入，而是年龄，&是受教育年数 • 
在所有的^，心和0 2 中寻找使得残差平方和 

~ ^0 — ~ 沒2為) 2 

i=l 

最小的解.在理论上，多个解释变量的情况与两个解释变量的情况是没有本质差别 
的.回归 估计良 的计算在概念上和单个解释变量情形一样，但显然公式要复杂得 
多. 

一个特例，假设 A = g ，处理的模型变为 

y « e 0 + dix + 9 2 x 2 . 

如果能够找到队 关于: Ti 是二次函数关系的解释，那么这个模型是合适的（当然更 
高阶多项式模型也是可能的).虽然二次函数关系是非线性的，但这个模型仍被称 
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作线性的，因为未知参数士和观测的随机变量％是线性关系.推广之，可以考虑 
这种一般形式的模型 

m 

y^e 0 + ^2^jhj(x). 
j=i 

通过取遍00, n 使得表达式 

- 6»o -Y^Ojhjixi)) 2 

i=l J=1 

取值最小即得到参数的估计 m 这样的最小化问题的解已经有现存的 
公式.它们都属于多元线性回归的范畴. 

9.2.4 非线性回归 

如果假设的关于未知参数的模型结构是非线性的，可将线性回归方法将推广到 
非线性的情况.特别地，假设变量 z 和 y 关系如下 

y^h{x-, 6), 

其中/»是给定的函数0的非线性，0是待估参数.对于已知的数据对 ( Xi , yi ),i = 
1，…， n ， 欲寻找0使得残差平方和 

^2 (yi - h ( xi -,6)) 2 
i=l 

达到最小. 

与线性回归不同，这类最小化问题并没有确定形式的解.但是解决实际问题时 
有一些相当有效的计算方法.和线性回归类似,非线性最小二乘估计源自参数 e 的 
最大似然 估计. 假定 数据队 来自下列的模型， 

Yi = h ( xi \6) + Wi , i = , n , 

其中 0 为未知的回归模型的参数，呢是独立同分布的零均值正态随机变量.这个 
模型的似然函数的形式为 

其中 CT 2 为爪的方差.似然函数最大等价于上式中指数部分最大，也就是使得残 
差平方和最小.这说明在 X 为正态的情况下，非线性回归模型中参数0的最小二 
乘估计就是参数0的最大似然估计. 



412 第 9 章经典统计推断 _ 

9.2.5 实际中的考虑 

回归方法的应用领域非常广泛，从工程到社会科学领域，无不涉及.但是应用 
时需要小心 . 这里我们讨论一些很重要的需要牢记的问题，忽略了这些事项，将无 
法通过回归分析得到可靠的结论. 

( a ) 异方差性.在涉及正态误差的线性回归模型中，最小二乘估计要求模型中 
误差项，也即噪声项 Wi,i = 1,••- , n 的方差相同.但是，在现实中，不同数据对的 
Wi 的方差可能有很大差别.比如，呢的方差可能受到〜的严重影响（更具体一些， 
假设 A 是年收入且是年消费.很自然能够预期富人消费的方差远大于穷人消费 
的方差).在这种情况下，一些方差较大的噪声项将对参数估计造成不恰当的影响. 
一种合适的补救办法是使用加权最小二乘准则-咖-心巧) 2 ,其中对于 
Wi 的方差较大的 i ， 权重％就小一些. 

( b ) 非线性 • 很多时候，变量 z 的取值可以影响变量 y 的取值，但是这种影响 
可能是非线性的.之前也讨论过，选择合适的&基于数据对 ( h ( Xi ), yi ) 的回归模型 
可能更合适. 

( c ) 多重共线性.假设现在用两个解释变量 a ； 和 z 来建模预测另一个变量 y . 
如果 cc 和 z 之间本身就有很强的关系，那么估计的过程可能无法可靠的区分两个 
解释变量各自对模型的影响.一个极端的例子是,假设 y = 2 Z + 1是真实的关系， 
而 2 = 20 ：总是对的.那么模型 y = z + l 也是正确的，但是并不存在一种计算方法 
分摊两个解释变量 x 和 z 在建立模型时对2/的贡献. 

( d ) 过度拟合.用大量的解释变量和相应的参数来建立多元回归，其拟合效果 
是良好的，但这种建立模型的方法并非有利,也有可能是没有用的.举例来说，假设 
一个线性模型是正确的，但是我们却用9次多项式来拟合10个数据.模型的数据 
拟合效果肯定非常好，但却是不对的.一个重要的原则是,数据点的数量应该是待 
估参数个数的5倍，最好是10倍. 

( e ) 因果关系.不要把两个变量 a ; 和 y 之间的线性关系错误理解成因果关系. 
一个非常好的拟合可能是因为 变量; r 是导致 y 的原因，也有可能 y 是导致 z 的原 
因.或者，有一些外在的因素，用变量2来刻画，以相同的方式影响着 rr 和 y . —个 
具体的例子是 A 是第一个出生的孩子的财富，％是同一个家庭中第二个出生的孩 
子的财富.粗略地预计％会随着^的增加而线性增长，但是这应该归功于共同家 
庭和背景的影响，而不是两个孩子之间的因果关系. 

9.3 简单假设检验 

本节将再次讨论如何从两个假设中进行选择.与 8.2 节贝叶斯公式表达不同， 
这里没有先验概率的假设.可以将此看作0只有两个可能取值的推断问题，但为保 
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持一致，需要抛弃0的记号，而用乳和代表两个假设.在传统的统计语言中， 
H 0 被称作原假设，// i 被称作备择假设.这个假设检验问题称为简单假设检验问题. 
这 说明执 的角色是默认的模型，根据得到的数据来决定是支持还拒绝执. 

观测随机变量 X = ( X U ---, X n ) 的分布依赖于 假设. 记号 P(X e 冼玛）表示 
当假设成立时 X 属于 A 的概率.注意与经典推断内容一致，不存在条件概率， 
因为$实的假设并没有被当作随机变量对待.类似地，用或 fxkHj ) 分 
别表示向量 X 在假设下的分布列或概率密度函数.我们希望找到一个决策准 
则将观测值 a; 映射到其中一个假设上去（见图 9.7). 



图 9.7 简单假设检验的经典推断框架 

任何一个决策准则都可以用样本空间的一个分划来表达将观测向量 x = 
( Xi ，…， X „) 所有可能取值的集合划分为两个 部分： 集合丑，称为拒 绝域； 以及 
它的补集丑。，称为接 受域. 当观测数据 X = %，… ， X „) 落在拒绝域 i ? 中，假设 
Ho 被拒绝(声 称氏) 是错误的)，否则就被接受，见图 9.8. 因此,决策准则的选择等 
价于拒绝域的选择. 


观察值的空间 



图 9.8 简单假设检验决策准则的结构.它将所有可能的观测划分为集合丑(拒绝域）和它的 
补集 iT (接受 域). 如果观测的实际值落在拒绝域中，原假设被拒绝 


对于一个选定的拒绝域丑，有两种可能的错误. 

( a ) 拒绝执而实际上％是正 确的. 这是第一类错误,所谓的错拒，发生的概 

率是 


a ( R ) = P(X eR ; H 0 ). 

( b ) 接受丑 Q 而事实上是错误的.这是 第二类错误，所谓的受假,发生的概 
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率是 

m = p(x ^ r ； ho . 

为构造拒绝域的形式，将其和贝叶斯假设检验做 类比. 在贝叶斯假设检验中， 
两个假设为 e = 6>0和0 = 6»1，先验概率分别是 Pe(6»o) 和 p &{ 0 i )- 于是,对于固定 
的观测值 A 利用最大后验概率准则让犯错的总概率达到 最小. 按这个规则，如果 


Pe ( Oo ) px \ e {^ o ) < pe { 0 i ) px \@( x \ 6 i ), 

则称0 = 0!是真的（假设X是离散的).①这条准则也可以这样 改写： 定义似然 
比 _L(a;) 为 


L { x ) = 


p X | 0 (x|6>i) 


Px|e ㈣ o)’ 

并称 e =心是真的，如果观测向量X的实现值 z 满足 


L ( x ) > 


其中 临界值 €为 

c = Pe(^o) 

Pe ( 0 i )' 

如果X是连续的，其分析方法是一样的，只是似然比定义为概率密度函数的 比值: 


L(x) = 


fx \@( x \ 0 i ) 

fx \ e { x \ 9 0 ) 


根据之前最大后验概率准则的形式，考虑如下形式的拒绝域 


R = { x \ L ( x ) > C}, 


其中似然比的定义和贝叶斯情形 类似: 


L { x ) = 


Px(x]Hi) 


或 L ( x ) 


fx(x-,H o y 


p x {x;H 0 ) 

现在的情况下， Ho 和不再具有先验概率，拒绝域中的常数《可以自由地根据 
各种考虑确定.特殊情况€ = 1正好对应了最大似然准则. 


① 在这一段我们用到条件概率的概念因为要处理贝叶斯问题. 

② 注意，我们用表示基于随机观测 X 的观测值 Z 的似然比的值.另一方面，最好在做实验之 
前将似然比看作随机变量， 一 个观测 X 的函数，记为 L ( X ). L ( X ) 的概率分布依赖于哪个假设是 
真的. 



9.3 简单假设检验 415 


例 9.10 现在想检验一个六面的骰子是否均勻，构造了关于六个面出现的概率的 
两个 假设： 

执(均勻的般子）： Px ( x -, Ho ) = a : = 1, ••- ,6 
f T , 若 a ： = 1 , 2 ， 

迅 (不均匀的散 子）： p x ( x -, H 1 )= I ^ 

g ) 若 x = 3,4,5,6. 

这个骰子一次投掷 z 的似然比是 

]^ =昼’若 3 ^ 1 ， 2 ， 

i ⑷ = 1 1/8 

[ 7 ^ = 3/4,若 a ; = 3,4,5, 6 . 


由于似然比只有两个单独的取值，临界值 S 所对应的拒绝域有三种不同的 情况： 
^<1： 对所有的 x 拒绝 F 。； 

1<^<1 -若 M {3,4,5, 6 }，接受 ;若 ze { l ， 2 }， 拒绝 F 0; 

1<^： 对所有的 : r 接受 H 0 . 

直观上看，若投掷结果是 1 或 2 则倾向于 i ^， 拒绝 F 0 . 另一方面，如果将临界值 
选得太高 （（ > |)就永远不会拒绝执.事实上对于骰子的一次投掷,检验只有当 
3/4 < ^ < 3/2时才有意义，因为之取其他值的时候，决策本身并不依赖于观测. 

不同的临界值犯错的概率可以根据数据算出.特别地，错误拒绝的概率 P 
(拒绝 丑。; 丑。）为 


<0 = 


1 ， 若卜聲， 

P ( Xe { l ,2}; H 0 ) = l 若聲 <€< 警， 

3 


6 




错误接受的概率 P (接受丑 0 ;丑 i ) 为 

f 

0 , 

m = {p(x 


若(< 長， 


{3,4,5,6}; i 7 i ) =若聲 <$< 豊, 

廿 3 一 
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注意，在前面的例子中 （ 的选择使得两种错误概率之间有此消彼长的关系•事 
实上，当 （ 增大，拒绝域变小.因此，错误拒绝的概率 a ( R ) 减小而错误接受的概率 
增加（见图 9.9). 由于这种平衡的存在，没有一种简单最优的方法来选择临界 
值.下面介绍一种最受欢迎的方法. 


图 9.9 



虚假接受概率 


* v 临界值6 
升的方向 


0| a i 虚假拒绝概率 


似然比检验中的犯错概率.当临界值 （ 增加，拒绝域变小.因此，错误拒绝的概率《 
减小而错误接受的概率增加.当 a 对于 S 的依赖连续严格单调下降，对于给定的 
Q , 只有唯一的$与之对应（见左图).但是 a 对于$的依赖也可能是不连续的，比如 
似然比 L(x) 只有有限个不同的取值（见右图） 


似然比检验 

• 首先确定错误拒绝的概率 a 的目标值 • 

• 选择€的值使得错误拒绝的概率为 a : 

P ( L ( X )> C , H 0 )= a . 

• 观测 X 的取值 a ;， 若 L ( x ) > ^则拒绝 i ? o . 


根据错误拒绝的不愉快程度， a 的典型选择是 a = 0.1 ， a = 0.05 或 a = 0.01. 
注意在应用似然比检验时需要下面的条件. 

( a ) 对于给定的观测值: r ， 我们必须能够计算 L ( x ), 这样才能与临界值€作比 
较.所幸在给定分布列或概率密度函数的大部分情况下都可以做到. 

( b ) 必须有 L ( X )( 或相关随机变量 \ nL ( X )) 分布的表达式或者可以通过近似 
分析计算和模拟得到.因为给定错误拒绝概率 a , 需要通过它来确定相应的临界值 

e 

例 9.11 一台监视器周期性地检査某个特定区域，并记录下信号 ， X = W 为没有 
入侵者（假设 H 0 ),X = 1 + W 为存在入侵者（假设假设 W 是零均值、已知 
方差为^的正态随机变量.由于 

fx{x]Ho) = ^ exp {-£}' fx(x;Hl) = 7 fc exp {- ， 




似然比为 
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L { x ) = 


/x(x;ifx) fx 2 -(x-l) 2 } f2x-n 

7^o) =exp \ 一 ~ ^~ / =exp (^r 


给定临界值匕如果 i(aO >《,似然比检验拒 绝执. 或者等价地，经过直接计算，若 


a ; > In 




2 


则拒绝执.因此，拒绝域的形式为 


i? = {a:|a; > 7}, 

其中7为某个常数，称为临界值 . 7与 C 的关系为 
. 7 = ^ In ^ 

见图 9.10. 当确定错误拒绝的概率 a 的目标值以后，可通过关系 
a = P(X > 7；- ffo ) = P(W > 7 ) 

和正态分布表来找 7. 比如， 若 a = 0_0 25 ,则 7 = 1.96^. 同样地，还可以用正态 
分布表计算错误接受的概率 

(3 = P(X < 7 ； Hi ) = P (1 + VF < 7 ) = P(W < 7 - !)■ □ 


V 




虚假接受概率 

虚假拒绝概率 




0 


^ 1 X 

接受域 

拒绝域 


图 9_10 例 9.11 中的拒绝域和接受域，以及相应错误拒绝和错误接受的概率 


当 L ( X ) 是连续随机变量，就像之前的例子，概率 P ( L ( X ) > ( ; 执）随着 《的 
增长从1到0连续移动.因而可以找到$的一个取值满足 P ( L ( X ) > ^ H 0 ) = a . 
但若 L { X ) 是离散的随机变量，则未必能找到恰好满足 P ( L ( X ) > = o ； 的 f 

的取值（见例 9.10). 在这种情况下一般有几种选择. 

( a ) 寻找使等式近似成立的取值. 
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( b ) 选择满足 P ( L ( X ) > CHoK a 的 C 的最小取值 • 

( c ) 利用外来的随机性在两个候选临界值中作 选择. 这种检验方法称为“随机 
化似然比检验”.这种方法在理论研究上有影响.但是由于它在实际中并不十分重 
要，本书对此不作深入讨论. 

通过与贝叶斯推断的类比，我们推动了似然比检验的 应用. 但现在要提出一个 
更强的 结论： 在给定的错误拒绝概率之下，似然比检验使得错误接受的概率达到最 
小. 


奈曼-皮尔逊引理 

考虑在似然比检验中一个确定的 t 从而有犯错概率 

P ( L ( X )>^, H 0 )= a , P ( L ( X )< e ；^ i )=/3- 
假设还有其他检验，拒绝域为丑，使得错误拒绝的概率一样或更小: 

P(X eR -, H 0 )^ a . 

则有 

当 P(Xe R -, H 0 )<a 成立时，严格不等式 P ( X ^ R ' Ih )> 13 成立. 


为证明奈曼-皮尔逊引理，考虑一个关于假设的贝叶斯决策问题，其 中执和 
H , 的先验概率满足 

Pe(^o) =广 


即 


P ©(^ o ) = 


+ €， 


Pe(^i) = 




如本节开始所讨论，利用最大后验概率准则得到的门限值为匕这与利用似然比检 
验准则得到的结论是一样的.由最大后验概率准则知，犯错的概率为 


一 =!^ + 1^’ 

由 8.2 节知它小于或等于任何其他贝叶斯决策准则的犯错概率.这说明任选拒绝域 
i ? 都有 

e MA p< j^nXeR^Ho) + 

比较前面两个关系式得，若 P(X e R -, H 0 ) ^ a , 则必须有 P(X i R ,^) > /3; 若 
P(X e R ; H 0 )< a , 则必须有 V{Xi R - H x )>(3. 这正是奈曼-皮尔逊引理的 结论. 
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奈曼-皮尔逊引理可以用画图的方式来解释，见图 9.11. 下面将 用几个 例子来 
说明这一引理. 



图 9.11 奈曼-皮尔逊引理的解释.考虑所有错误概率数对 ( a ( R ),/ 3 ( R )) 的集合 f ，当取遍 
所有可能的拒绝域（样本空间的子集) . £的有效边界是这样的向量（《(7?)，/3(丑)）的 
集合： 不存在 { a , P ) e £:使得 a < a { R ) 且 /3 < ( 3 ( R ), 或者 a < a ( R ) 且 f 3 ( R ). 
奈曼-皮尔逊引理说的是似然比检验中所有的 ( a ( R ), f 3 ( R )) 都在有效边界上 

例 9.12 接着考虑例 9.10, 投掷骰子一次来检验它是否均匀.考虑所有错误概率 
数对 ( a ( R ), P ( R )) 的集合&其中 i ? 取遍所有可能的拒绝域（样本空间 { I ,--- ,6} 
的所有子集).图9_ 12中画出了集合 5. 可以看出似然比检验中的犯错概率数对 
(1,0), (1/3,1/2)^ (0,1) 具有奈曼-皮尔逊引理给出的性质（比如落在有效边界上， 
见图 9.11 中的术语). □ 



图 9.1 2 图中显示了例 9.10 和例 9.1 2 中所有错误概率数对 ( a { R ),/ 3 ( R )) 的集合&其中丑 
取遍观测空间 {1, •• - ,6} 的所有子集.（1，0),(1/3,1/2)和 (0,1) 是似然比检验中的 
犯错概率数对 

例 9.13 (不同拒绝域的比较）设观测为它们是独立同分布的单位方差正 
态随机变量 •在丑 Q 的假设下它们的共同均值是0,而在的假设下它们的共同 
均值是 2. 设错误拒绝的概率为 a = 0.05. 
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首先根据似然比检验推导公式，然后计算 的值. 似然比的形式为 
太 exp {— ((町 - 2) 2 + (叼 — 2) 2 )/2} 


L{x ) = 


^exp{-(a;? +a ： l)/2} 


= exp{2(a：i + x 2 ) - 4}. 


比较 L ㈤和临界值《等价于比较 : n +吻和 7 = ( 4 + In0/2. 因而根据似然比检 
验，如果 X!+X 2 >7 则倾向于承 认迅. 这确定了拒绝域的形状. 

为确定拒绝域的具体形式，我们要找到 7 使得错误拒绝的概率 P ( Xi + X 2 > 
7; 玑）为 0.05. 注意，在风的假设下, Z = ( X 1 + X 2 )/ V 2 是标准正态随机变量，则 
有 

0-05 = P(Xi + X 2 > 7; 丑。)= P 丑。)= P > 5) • 

根据正态分布表，得到 P(Z > 1.645) = 0.05, 因而选择 
7 = 1.645 - V 2 = 2.33, 

得到拒绝域为 

R = {{ xi , xq)\xi - \- x 2 > 2.33}. 

为评价这个检验的表现，我们计算错误接受的概率.在丑 i 的假设下， X 1+ X 2 
服从均值为4方差为2的正态分布，因而 Z = (A +X 2 - 4)/V2 是标准正态随机 
变量.根据正态分布表，错误接受的概率是 


f3(R)=P(X 1 +X 2 ^2.33-,H 1 ) 

= P(Z^ -1.18) 

= P(Z^1.18) 

= 1-P(Z< 1.18) 

= 1 - 0.88 
= 0 . 12 . 

现在来比较似然比检验在不同的拒绝域纪下的表现.比如考虑一个形式为 


R f = {(xi,a ： 2)|max{xi ) a ； 2} > C} 
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的拒绝域，其中 C 的选择使得错误拒绝的概率仍然为 0.05. 为确定 C 的值，有 
0.05 = P ( max { Xi , X 2 } > C ; 丑 o ) 

= l - P ( max { X 1 , X 2 }< C ；-^ o ) 

= 1- P ( X 1 ^ C , Ho ) P ( X 2 ^ C , H 0 ) 

= l -( P ( Z ^ C ；^ o )) 2 , 

其中 z 是标准正态的 _ 推出 P(Z < C ; 丑 o ) = VI - 0.05 « 0.975. 由正态分布表得到 
C = 1.96. 

现在来计算相应错误接受的概率.记 Z 是标准正态的随机变量，于是 
P { R ') = P ( max { X 1 , X 2 } ^ 1.96; ifi ) 

= ( P(^i < 1.96;- E x )) 2 
= ( P ( X 1 -2<-0.04;^ 1 )) 2 
= ( P ( Z < -0.04)) 2 
=(0.49) 2 
= 0.24. 

可以看见似然比检验的错误接受的概率 P ( R ) = 0.12,比另一种检验错误接受的概 
率 /3( i ?0 = 0.24 要好很多. □ 

例 9.14 (一个离散的例子） 将一枚硬币独立地投掷25次.丑 0: —次投掷正面向 
上的概率为办=1/2;丑 1: 一次投掷正面向上的概 率为& = 2/3.令 X 是观测到 
正面向上的 次数. 固定错误拒绝的概率为0.1，似然比检验的拒绝域是什么呢？ 
当1 = &似然比的形式为 

眷§§募 hi •闫 r ㈢ r-(r 

注意 m 是关于的单调增函数.因此,拒绝条件 i ㈨ > €等价于& > %其中 7 
是一个依赖与 s 的一个合适的常数.所以似然比检验为 

若 X > 7 ,则拒绝 

为保证满足错误拒绝概率，需要找到使得 P(X > 7 ；- ffo ) ^0.1 成立的最小7值，或 
£⑺〜 
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通过计算不同 7 对应取值找到符合要求的1 = 16. 

另一种选择7的方法用到中心极限定理的近似•在丑 Q 的假设下, 


X-nOp — X - 12.5 
^/n6 0 (l - 0o) — yJWi 


是近似标准正态随机变量.因而有 


0.1 = P ( X > 7 ；- ffo ) = P 


X -12.5 


7-12.5 
x/2574 ’ 


H 0 



由正态分布表， $(1.28) = 0.9,选择7满足（2 7 /5) — 5 = 1.28, 即7 = 15.7. 由于 X 
是整数，似然比检验在 X >15 的时候应当拒绝 iio . □ 


9.4 显著性检验 

在实际情况中，假设检验问题并不总是包含两个特定的选择，因而 9.3 节的方 
法便不再适用.本节的目的是介绍一类更一般的问题，并提供解决办法.需要提醒 
的是，我们提供的方法既不是唯一的也不是普适的，判断力和技巧是很重要的组成 
部分. 

可以考虑以下问题来开启思维. 

⑴重复独立投掷一枚硬币.这枚硬币是均匀的吗？ 

( ii ) 重复独立投掷一个骰子.这颗骰子是均勻的吗？ 

( iii ) 观测到一列独立同分布的正态随机变量 Xi ，… ， X n , 它们是标准正态的 
吗？ 

( iv ) 将得了同一种病的病人分成两组，用两种不同的药治疗，第一种治疗比第 
二种更有效吗？ 

(V) 基于历史数据（比如去年的)，道琼斯指数每日的变化服从正态分布吗？ 

( Vi ) 基于两个随机变量 X 和 Y 的一些样本 ( Xi , yi ), 能够判断两个随机变量是 
否独立吗？ 

在上述所有情况中，我们都在处理具有不确定性并且具有某种统计规律的现 
象.在上述问题中，我们提出一个默认的假设，称为原假设，记作丑 0 . 我们根据观 
测 X = …，来决定是拒绝还是接受原假设. 

为避免主要思想上的含糊，要将我们的讨论范围限制在具有下列特征的情况 
中. 

⑷参数 模型： 假设观测 &，…， X n 服从完全由未知参数 0( 标量或向量）决定 
的分布列或联合概率密度函数 mm ), e 在给定的集合別中取值. 

( b ) 简单原 假设： 原假设说的是0的真值等于 X 中一个给定的元素 00. 
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( c ) 备择 假设： 备择假设丑 1; 是说丑 0 不正确，即 0 # 0 0 . 

前面的引例中， （ i ) 〜 （ ii ) 满足 ⑷〜 ( c ). 而例 （ iv ) 〜 （ vi ) 的原假设并不简单，违 
背了条件 （ b ). 

9.4.1 一般方法 

我们首先通过一个具体的例子来介绍一般的方法.然后对不同的步骤进行总 
结和评论.最后，再来看一些用一般方法能够解决的例子. 

例 9.15 (我的硬币均匀吗？）投掷一枚硬币 n = 1 000次,每次投掷之间独立 . 0 
是未知的每次投掷正面朝上的 概率. 参数可能取值的集合是別=[0, 1]. 原假设（硬 
币是均勻的）是0 = 1/2. 备择假设是0 # 1/2. 

观测数据是序列 Xi ，…，，代表 n 次投掷硬币的结果，第 i 次投掷的结果为 
正面朝 上则足 取值为1，否则不取值为 0. 我们选择5 = + 的值，即 

观测到正面朝上的次数，并用这样的决策 准则： 

若 | S — 引>&则拒绝丑 0， 

其中€是待定的合适的临界值.目前为止我们已经确定了拒绝域(拒绝原假设的 
数据集合）的 形状. 最后要做的是选择临界值《使得错误拒绝的概率等于给定的值 


P (拒绝执;丑 d = a . 

典型的 o : 是一个很小的数，称 为显著水平， 这个例子中取 a = 0.05. 

到目前为止，我们只是提供了一系列直观的操作法.确定临界值《需要一些概 
率计算_在原假设下，随机变量5服从参数为 n = 1 000和 p = 1/2的二项分布.由 
于样本量很大的时候，可利用正态分布逼近二项分布，再利用正态分布表可得到临 
界值的近似选择 f = 31_假设若 S 的观测值为 s = 472,则有 

|s — 500 1 = |472 - 500 1 = 28 ^ 31, 

因而在5%显著水平下不拒绝假设丑 o . n 

在上例的最后，我们是故意说“不拒绝”而非“接受”的.我们没有任何确凿的 
证据说0等于 I / 2 而不是0. 5 1.我们只能说 S 的观测值没有提供有力的证据来反 
对假设丑 0. 

现在从前面的例子中总结归纳得到一种一般的方法. 
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显著性检验的方法 

基于观测 x ,,---, x n , 将对假设 “ Ho : 9 = e * v 做统计检验. 

-以下步骤在得到观测数据之前完成 - 

( a ) 选择统计量 S ， 一个能够概括观测数据的随机变量.从数学的角度上 
看， 就是选择函数九：尺兄使得统计量8 =九(叉1， …， A ). 

( b ) 确定拒绝域的形状：拒绝域通常由 S 的取值组成的一个集合，当 S 落 
入这个集合时，就拒绝 Ho . 在确定这个集合的时候,还涉及一个未定 
的常数 C 这个常数称为临界值 • 

( c ) 选择显著水平：错误拒绝说的概率 a . 

( d ) 选择临界值 (， 使得错误拒绝的概率等于或近似等于这时候，拒绝 
域就完全决定了. 

• 一旦得到- 的观测值…，: r „: 

( i ) 计算统计量 S 的值 s = h ( xi , ■■- , x n ). 

( ii ) 若 s 落在拒绝域中，拒绝假设 Ho . 


下面对上述方法中各个部分做一些解释和评论. 

⑴没有一种万能的方法来选择“正确”的统 计量反 在一些例子中，比如例 
9.15, 这种选择是自然的并且能从数学的角度证明其优良性能.另外，我们还可以将 
似然比的概念进行推广，得到有使用价 值的& 这将在本节后一部分讨论.最后，在 
考虑 S 的选择的时候，一个重要的原 则是： S 的简洁性，是否足够简单从而能够进 
行上面方法中步骤 （ d ) 的计算. 

( ii ) 不拒绝丑 Q 的 S 取值的集合一般是包含（在 Ho 的假定下) S 的分布密度 
峰值的一个区间（见图 9.13). 当样本量很大的时候，可利用中心极限定理_由于正 
态分布密度有对称点，可取关于 S 的均值对称的一个区间作为接受域.类似地，例 
9.15 中对称的拒绝域是根据事实在丑 0 下 S 的分布（参数为1/2的二项分布）关于 
其均值对称而建立的.其他例子中，非对称的拒绝域可能更加合适.比如在例 9.15 
中，若事先我们能够确定0 > 1/2,那么单边的拒绝域是自 然的： 

若登>€则拒绝丑。. 

( iii ) 一般错误拒绝的概率 a 在 a = 0.10 和 a = 0_01之间选择.当然人们都希 
望错误拒绝的概率尽可能地小，但是由于两类错误概率的互相消长关系， a 取值很 
小会使得拒绝错误假设变得困难，相应地增加了错误接受的概率. 

( iv ) 步骤 （ d ) 是唯一需要概率计算的 地方. 它需要知道 L ( X )( 或者相关随机变 
量如 lnL ( X )) 在假设丑0 成立时的分布（或近似分布).一些特殊情况中，可以是直 
接给出分布或者经过简单推导就可以得到其分布.然而除了相对简单的情形，一般 
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很难找出 S 的分布的具体表达形式.若 n 很大,可以利用中心极限定理求出近似 
分布.但是，当 n 不是很大的时候，就很难得到近似分布.这种想要得到易处理的 
表达式或近似公式的愿望驱使我们寻找更加实用的统 计量反 另一种解决困境的 
途径是利用模拟的方式估计 S 的分布，例如产生大量独立的 X 的模拟样本，根据 
L { X ) 画出直方图或估计的分布. 



拒绝域 拒绝域 

图 9.13 显著性检验基于统计量 S 在原假设下的分布的双边和单边拒绝域.显著水平是错误 
拒绝的概率，也就是在/成立时统计量 S 落在拒绝域中的概率 

给定 a 的值，如果假设现被拒绝，我们就说在显著水平 a 之下被拒绝.这 
个说法需要一个合理的解释.它并不是说事 件“执 真实”的概率小于 a . 它说的 
是：利用这种检验方法时，“错误拒绝”的百分比为 a .在1%的显著水平下拒绝 
一个假设意味着观测数据在执成立的模型中显得很不 正常； 这种数据只会以1% 
的可能性出现，因而 为“珣 不真”提供了有力的证据. 

很多时候,统计学家跳过上述方法中的步骤 （ c ) 和步骤 （ d ). 取而代之，他们计 
算 S 的真实值 S 并汇报相关的 y 值,定义 如下： 

p ■值= min { a | i ? Q 在显著水平 a 之下被拒绝}. 

等价地，值就是 S 应当在拒绝与被拒绝分界所处位置的 a 值.因此举例来说，原 
假设在5%显著水平下被拒绝当且仅当 p •值小于 0.05. 

下面将用一些例子来解释主要思想. 

例 9.16 (正态分布随机变量的均值等于零吗？） 假设 Xi 是独立正态随机变量， 
均值为方差 < r 2 已知.考虑的假设检验问题是： 

H 0 ： 6 = 0, H x : 6>/0. 

一个合理的统计量是样本均值 ( X x + • • ■ + X n )/ n 或者变换系数后的 
。 X 1 + … + X„ 

^ ' 

拒绝域形状的自然选择是拒绝故当且仅当问 >《.因为在丑0为真的假定之下， 
S 服从标准正态分布 j 相应于任意 a 的取值可以很容易的从正态分布表中找到. 
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比如 a = 0.05,由 P(S < 1.96) = 0.975 可知，检验可如下执行： 

若问> 1.96, 则拒绝丑 0 ， 

或者等价地， 

若 | Xi + ••_+ X n | > 1.96(7 \/^，则拒绝 Ho _ 

从单边的角度来考虑，备择假设变为 Hi ： 0 > 0. 这时候可以用一样的统计量 
S , 但是当 S > €时拒绝丑0,其中 （ 根据尸口 >0 = «来取值.同样，服从标准 
正态分布，€相应于任意 a 的取值可以很容易的从正态分布表中找到. 

最后，若 a 2 未知，可以用估计来代替，如 

这时得到的统计量服从 i - 分布（而不是正态分布).若 n 相对较小，此时应该使用 
分布表而不是正态分布表（参见 9.1 节). □ 

例 9.17 讨论复杂的原假设迅，这意味着它不是由单一分布所确定的. 

例 9.17 (两个组的均值相等？）我们现在想检验一种药物在治疗两个人数不同的 
小组中效果是否相同.分别从两组中抽取样本&，•••和 K ，…， Y „ 2 , 若药物 
治疗对第一组（或第二组）的第 i 个人有效则不= 1( 或 X = 1)，否则不= 0( 或 
Yi = 0). 将每个 A (或抝看作伯努利随机变量，未知均值为心(相应的卜)，并考 
虑假设 

Ho : Ox = 0 Y , Hi : 6 X ^ ^y- 

需要注意的是有很多对 (e x ,e Y ) 都满 足现， 因而丑 0 是复杂假设. 

两组的样本均值为 

1 711 1 712 
e x = - J 2 Xi , ©y = - gyi . 

e x -e Y 的一个合理的估计量是白 x - 台 y . —个可接受的选择是拒绝说当且仅当 
|© a - - Or | > t , 

其中 * 值由给定错误拒绝概率 a 所确定.但是选择合适的 * 很困难，因为白 x - 0 y 
在执下的分布由未明确的参数 k 和纤决定.这激发了另一种统计量的发展，我 
们接下来将要讨论这种方法. 
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对于很大的勿和 n 2 , 白 x 和白 y 近似正态且相互独立，因而白 x — 也是近 

似正态，均值为 e x -e Y , 方差是 

var (0 x -© r )= var (0 x ) + var (0 K ) = 

Til 712 

在丑 0 的假设下， 0 X - 0 y 已知为零，但其方差未知，因为不知道 h 和知的共同 
取值.另一方面，在执的假设下，和的共同取值可以用样本均值 

V^ n l V I V^ n 2 v 
0 = z^i=l x i + z^i=l y i 

Tlx + Jl2 

来估计，方差 var (0 x - 0 K ) = var (0 x ) + var (© y ) 可以近似为 

o ' 2 = + & (1- Q ), 

且（白 ; f — e Y )/ a 近似标准正态随机变量.因而考虑采取下列方式完成检验 
若 仏為)1 〉匕则拒绝执， 

(J 

选择满足= 1 - a /2 的《，其中$是标准正态分布的概率分布函数.比如 
« = 0.05, 得到拒绝域形式为 

jK9x_M >196 j 

实际中，问题的提法还会有稍微的变化?此时应考虑假设 


Ho - Ox = 0 y, Hi : Ox > 0y- 


那么相应的拒绝域就是单边的，形式为 


(Qx - Qy ) 



其中临界值是满足 $(0 = 1 的$ □ 

上一个例子解释了复合型原假设的一类问题.为确定合适的临界值，我们更希 
望能找到一个统计量,使得它的近似分布相对于原假设的所有参数值都一样，就像 
例 9 . i 7 中的统计量 （& - e Y )/ o - 那样 • 


①例如第二组病人的效果是否不如第一组病人的效果.一一译者注 
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9.4.2 广义似然比和拟合优度检验 

我们讨论的最后一个课 题是： 检验给定的分布列是否和观测数据保持一致.这 
是一个很重要的问题,称之为拟合优度检验.这也是一个在复合备择假设情况下显 
著性检验的一般方法. 

考虑一个在有限集合 {1, …， m } 上取值的随机变量，心是随机变量取值 fc 的 
概率.因而这个随机变量的分布列由向量参数0 =队，刻画.考虑假设 

Ho ： 0 =( 内，…，0，历： ,6* J , 

其中是一组给定的非负数，且和为 1. 现在抽取随机变量的一个样本量为 n 
的样本，令 AT fc 是样本中结果为 fc 的次数.这样实际观测得到的随机变量是 X = 
( iVx , - - - , N m ), 观察值为；£ = (〜，..• , n m ). 注意 N ~ i _ + . _ . + N m = ni + - ■ ■ + n m = n . 

上面这种概率模型有很多实际背景，我们用掷骰子这种易于理解的例子加以 
说明， 考虑 n 次独立地投掷一颗骰子，原假设丑 。是： 骰子是均勻的.这时％ = 
1/6, it = 1,…，6, 是 n 次投掷中结果为 fc 的次数.注意备择假设是复合的， 
因为^有很多选择. 

下面介绍的方法是广义似然比检验，它包含两个步骤. 

( a ) 通过最大似然来估计模型，比如选择在所有0 中使得似然函数达 
到最大的参数向量6=咏，… Jm ). 

( b ) 进行似然比检验，具体地说，比较估计模型的似然函数 px ( x - J ) 和 F 0 下 
的 px ( x -, e *). 更具体地，计算广义似然比 

px { x -, e ) 

px ( x ； e *) 7 

若它超过临界值€则拒绝 He . 和简单假设检验中一样，我们选择 f 使得错误拒绝 
的概率（近似）等于给定的显著水平 a . 

从本质上说，这种方法提出了以下 问题： 相对于执下的模型,是否存 在和丑 i 
相符的模型对观测数据有更好的解释呢？为回答这个问题，我们比 较在执 下的可 
能和相应于估计模型的最大可能 px ( x -, e ). 

现在按广义似然比检验方法解决掷骰子中的检验问题.第一步，求似然函数在 
(e u - •• 九) 的集合上的最大值点（最大似然估计).观测向量 x 的分布列是一个多 
项式（参见第2章习题27)，似然函数是 


(:… C "， 

其中 c 是归一化常数.在求最大值点时候，求对数似然函数的最大值点会相对容易， 
其形式 


lnpx ( x ; 6 ) = In c + ni In 心 + • •. + n TO _iln 6 m -i + n m ln(l - 6 i 


沒 m _ l )， 
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此处利用关系式 0 1 + ... + 0 m = l 消除了多余参数 0 m . 假设使似然函数达到最大 
的向量彡的每一个分量都是正的，那么对数似然函数的各个偏导数在彡处均为 0. 
利用这个性质，可以得到 




1-01 




Om-l 


其中 A ^ l ， … 


由于右边的项等于 n m / e m , 可知所有比值 n k / e k 都相等.根据 m +…+ n m = n 
得到 

4 = 守 ， k = l r ..,m. 

可以看出即使有叫为零，仍能得到正确的最大似然估计,相应的&也为零. 

现在计算广义似然比，得到如下的广义似然比检验① 

去： Px(x-,9) _ {n k /n) nk 
若 p x ( x -, e *) _ n {e * )nk 通绝丑 o , 

其中 € 是临界值.在检验的不等式两边取对数，检验变为 

若 n k 则拒绝丑0_ 

根据要求的显著水平来确定常数 （ 

P(S>ln^H 0 ) = a, 

其中 

'卜 ㈤ . 

因为 S 在 i / Q 下的分布很复杂，要求出 Inf 的精确解并非易事，但可以通过模拟解 
决. 

所幸当 n 很大的时候这可以大大简化.这个时候，观测 频率& = n fc / n 在执 
下以很大的概 率与％ 接近.二阶泰勒展式显示统计量 r /2 是 S 的很好的近似，其 
中 r 是② 

~h ^ ■ 


① 这里运用约定 0 D = 1和0 . InO = 0. 

② 对任何 y * > 0,函数 yin ( y / y *) 的二阶泰勒展式为 


2/ In 


0卜1 


当 w 


( y - y*) 2 
: y * ' 


卜 ㈤ ♦，迖 ¥ = f . 
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进一步地，当 n 很大的时候，在执假设下, T 的分布（ 2 ^的分布）逼近“自由度为 
m — i 的 x 2 分布”.①此分布的分布函数可以在表中查到（类似正态分布表).因此, 
可以在 X 2 分布表中找到 PCT > 7;丑 0) 或 P (25 > r , H 0 ) 的近似真值，然后根据给 
定的显著水平 a 来确定合适的临界值.将所有内容合起来,对于较大的 n 有下面的 
检验. 


X 2 检验 

• 利用统计量 

(或者相关的统计量 r ) 以及拒绝域 

{25 > 7 } 

进行检验（或相应的 {T > 7 }). 

• 临界值$依照自由度为 m - 1的 x 2 分布的概率分布函数表确定，满足 
P(25> 7 ； ^o)=a, 

其中《是给定的显著水平. 


例 9.18 (我的骰子均匀吗？）独立地投掷一颗骰子共600次，得到数字1, 2, 3, 4, 
5,6出现的次数分别为 

ni = 92, U2 = 120, ri3 = 88, = 98, = 95, = 107. 

现在用基于 r 统计量的 x 2 检验来检验原假设丑0:骰子是均勻的，显著水平为 
a = 0.05. 根据自由度为5的 X 2 分布表得到满足 P(r > 7; // 0 ) = 0.05 的 7 = 11丄 


①自由度为 i 的 X 2 分布定义为随机变量 

i-l 

的分布，其中&，…•，&是服从标准正态分布（均值为零，方差为 1) 的随机变量.可以从直观上 
来解释为什么 T 近似 X 2 分布：当 n — oo , N k /n 不仅收 敛到％ 同时也是渐近正态的.因此, T 
等于 m 个零均值正态随机变量（凡_ nei )/^ Sl 的和 . T 的自由度为 m - 1而不是 m , 这是 
因为 E^=i N k = n , mm 个随机变量是相关的. 
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由朽=…=和=1/6, n = 600, = 100以及给定的 n fc ， r 统计量的值是 

{ n k - n 6* k ) 2 (92 - 100) 2 (120 - 100) 2 (88 - 100) 2 

^ fc=1 nd * = 100 + 100 + 100 

(98 - 100) 2 (95 - 100) 2 (107 - 100) 2 

~~100~ + ~~100~ + 100 
= 6 . 86 . 

因为 T = 6 . S 6 < 11.1，无法拒绝般子是均匀的假设_如果用的是 S 统计量，得到的 
是 M = 6.86, 同样小于临界值 7 = 11.1. 如果显著水平 a = 0.25, 相应的 7 值为 
6.63. 这时由于 r = 6.86 > 6.63 和狀= 6.86 > 6.63, 我们将拒绝骰子是均勻的假 
设. □ 

9.5 小结和讨论 

_经典推断方法和贝叶斯方法不同，它将0看作未知的常数.经典参数估计的目 
标是在0所有可能的取值中找出具有良好性质（如对一切0，偏差很小，或具有满 
意的置信区间）的估计量.我们首先关注与（贝叶斯）最大后验概率方法密切相关 
的最大似然估计，它选择0的估计使得给定$的似然函数最大.这种估计方法用途 
很广并且有一些很好的性质,特别是当观测数目很大的时候.接着我们讨论了特殊 
但是在实际情况中很重要的估计未知均值并建立置信区间.本章中很多方法都依 
赖于中心极限 定理. 最后讨论的是线性回归方法，它主要是在最小二乘意义下找到 
与观测相匹配的线性模型.虽然这种方法的应用不需要概率假设，但是在某些时候 
仍和最大似然估计以及贝叶斯最小线性均方估计有着密切的关系. 

经典假设检验方法的目标是小的犯错概率以及简单方便的计算.我们首先研究 
的是当观测落在拒绝域中时拒绝原假设的检验方法.似然比检验是简单假设检验 
问题的基本方法，奈曼-皮尔逊引理给其很强的理论支持.我们还讨论了显著性检 
验，其中一个（或两个）假设是复杂的假设 • 主要方法包括适当选择提取观测信息 
的统计量以及拒绝域，使得错误拒绝的概率达到希望的显著性水平. 

在对统计的简单介绍中，我们旨在阐述核心概念和最常用的方法,但这还远远 
不够，只是涉及这个内容丰富的学科的一点皮毛 而已. 很多重要的话题我们都没有 
讨论，比如时间变化的环境中的估计（时间序列分析和过滤)，非参数估计（如基于 
经验数据来估计未知的概率密度函数)，线性和非线性回归的后续发展（如检验回 
归模型的假设是否正确)，统计实验的设计方法，统计研究结论的证实方法，计算方 
法，等等.但是，我们希望能够通过本章的知识激起读者对这门学科的兴趣并对概 
念框架有一些基本的认识. 
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习 题 


9.1 节经典参数估计 

1. 爱丽丝将自己每周做作业的时间看作随机变量，服从未知参数为0的指数分布.不同周 
做作业的时间是相互独立的.本学期的前5周她做作业的时间分别为10, 14, 18, 8, 20 
小时，那么0的最大似然估计是多少？ 

2. 考虑一列独立的硬币投掷试验，0是每次正面向上的概率. 

( a ) 固定 fc ， iV 是直到出现第 fc 次正面向上时投掷的总 次数. 试找出基于 iV 的0的最 
大似然估计. 

( b ) 固定 n ， A ： 是 n 次投掷中正面向上的次数.试找出基于 K 的0的最大似然估计. 

3. 抽样与和的估计. 一个盒子中有 fc 个球： S 个白色和 k - k 个红色的.假设 A : 和 S 均已 
知.每个白球上都有一非零数字，而红球上的数字都是零.我们想要估计球上所有数字的 
和，但是由于 fc 很大，于是用抽样的方法来估计.此问题的目的是量化从白球（非零数字） 
中抽样以及挖 掘对& 的认识的好处.特别地，将比较抽 n 个球时的误差方差和抽少一些 
的 m 个白球时的误差方差. 

( a ) 假设独立地有放回地抽球,其分布为均匀 分布. 记 Xi 为第 i 个球上的数字， K 为第 
i 个白球上的数字.固定 n 和 m ，记 

其中犮是开始的 n 个球中白球的（随机的） 个数. 说明艮 S 和5是所有球上数 
字和的无偏估计. 

( b ) 计算5和5的方差，并说明为了使它们近似相等, m 必须满足 

np 

ma p + r ( l- P y 

其中 p = k / k , r = E [ Vi 2 ]/ vax ( yi ). 指出当 m = n 时，有 

var (5) _ p 

vax ( S ) ~ p + r ( l - p )' 

( c ) 计算 5 的方差，并说明对于较大的 n 有 

var ( S ) 1 

var (5) p + r(l — p ). 


4. 混合模型.随机变量 X 的概率密度函数由 m 个部分组成 


fx{x) = ^Pjfy^x), 
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其中 m 

Pi = Pj 0, j = 1, • • • , m . 
j=i 

因此 X 可以看作由两步过程产 生的： 首先随机地以概率 ft 抽取 j '， 然后再从第 j ' 个总 
体（其分布密度为 /&) 随机抽取相应的假设&是正态的，均值 方差 cr 】. 此外 
还假设不，…， X „ 是 / x ㈦ 的独立同分布样本. 

( a ) 写出似然函数和对数似然函数. 

( b ) 考虑 m = 2 和 n = 1的情形，假设是已知的.试找出 pi 和 P 2 的 
最大似然估计. 

( c ) 考虑 m = 2 和 n = 1的情形，假设 pum 和 cr 2 是已 知的. 试找出妁和 M2 的 
最大似然估计. 

( d ) 考虑 m > 2和 n 的一般情况，假设所有的参数都未知.说明让 Ml = n 以及 a ? 减 
小到零的时候，似然函数可以任意大. 注意： 这个例子说明最大似然方法是有问题 
的. 

5. 设不稳定的粒子从某个源发出，并在服从参数0的指数分布的距离 X 湮灭.用一种特 
殊的装置测出最前的 n 次湮灭发生在区间假设这些事件记录的距离为 X = 
(不 ，…， X „). 

( a ) 试写出似然以及对数似然函数的形式. 

( b ) 假设 m 1 = l ， 7« 2 = 20,74 = 6且 3： =(1_5,2,3,4,5，12)_画出似然函数以及对数似 
然函数关于0的图.在你的图中找出近似的最大似然估计. 

6. 在一项中学生身髙的研究中，假设女生的身高是均值叫和方差的正态分布，男生的 
身高是 均值碑 和方差 <7 2 2 的正态 分布. 并假设抽出一名男生和一名女生的概率是相等的. 
现收集了样本数量为 n =10 的样本，记录值 ( cm ) 如下 

164, 167, 163, 158, 170, 183, 176, 159, 170, 167. 

( a ) 假设 mi , 碑， Q 和 < r 2 是未知的.写出似然函数. 

( b ) 假设已知 a ? = 9 和妁 = I6 4 . 给出 a 2 和埤的最大似然估计的数值. 

( c ) 假设已知4 = < t 2 2 = 9.给出 舛和埤 的最大似然估计的数值. 

( d ) 将 （ c ) 中的估计作为准确值，描述利用学生身高来判断学生性别的最大后验概率准 
则. 

7. 泊松分布随机变量的参数估计.利用独立同分布泊松随机变量的观测值 A ,...， X „ ，推 
导参数的最大似然估计.这个估计量是无偏且相合的吗？ 

8 - 均匀分布随机变量的参数估计（ I )•给定 [0,0] 上均匀分布随机变量的独立同分布观测值 
^1,•• - ， x n . e 的最大似然估计是什么？它是相合的吗？无偏还是渐近无偏？你能构造一 
个另一个无偏的估计量吗？ 


9 - 均匀分布随机变量的参数估计（ II )•给定 [ e,e + i ] 上均匀分布随机变量的独立同分布观 
测值•■- , x n . 试找出0的最大似然估计.它是相合的吗？无偏还是渐近无偏？ 

10. 触动某光源， 它 每次将发射随机数量 个 光子.假设 欠 的分布列是 

PK ( k \ 0) = c (0 )e fc = 0,1，2, ■ ■ • ， 
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其中0是温度的倒数， c (0) 是归一化因子.假设每次触动发射的光子是独立的.现在想 
要通过重复触动光源，记录发射的光子数量来估计温度. 

(a) 确定规范化因子 c(0). 

( b ) 找出一次触动发出光子数 K 的期望和方差. 

(c) 根据 n 次触动发出的光子数 K u ■■- , K n , 推导温度岭= 1/6> 的最大似然估计. 

( d ) 证明此最大似然估计是相合的. 

11 .* 充分统计量-因子分解准则.考虑如下观测模型.为简单起见假设所有的随机变量都是 
离散的，初始观测 r 由分布列 PT (t-,e) 给出. 得到观测 r ， 另一个观测 f 由不含未知参 
数0的条件分布列 P Y \ T ( y \ t ) 得割.直观告诉我们在观测向量 x = ( t , y ) 中只有 r 对 
估计0是有用的.正是这个问题形充分统计量的思想. 

给定观测 x = (x u ■■- , x „), 称（标量或向量）函数 r = g ( X ) 是 0 的充分统计量, 
如果 X 在给定随机变量 T = q ( X ) 的情况下的条件分布不依赖于0,也就是任何事件 D 
和随机变量 r 的可能的取值 


Pe(X e D\T = t ) 


对所有 0 是一样的.假设或者 X 是离散的（在这种情况下 T 也离散)，或者 X 和 T 都 

是连续型随机变量. 

( a ) 证明 ： r = q ( X ) 是充分统计量当且仅当满足下面的因子分解 准则： 似然函数 px ( x -, 
0 )( 离散情形）或 / x ( a ^) (连续情形）可以写成 r { q ( x ), e ) s { x ) 的形式，其中 r 和 S 
是两个函数. 

( b ) 证明： 如果 g ( X ) 是0的充分统计量，对0的任何函数 / i , q ( X ) 都是参数 C =九⑻ 
的充分统计量. 

(C) 证明： 如果 q ( x ) 是0 的充分统计量， 0 的最大似然估计可以写成 0„ = 4>( q ( X )), 
其中0是一个函数. 说明： 这说明充分统计量抓住了由 X 提供的关于0的所有核 
心信息. 

解 （ a ) 只考虑离散情形，连续情形的证明类似.假设似然函数可以写作吻 ㈤ ， 咖 ㈤ _ 
我们来说明 ： T = q ( X ) 是充分统计量. 

固定 t 考虑使得 Pe(T = t ) > 0的对任何满足 g (岣/ t 的 x , 由条件概率 
的定义,立即可得到 P e (X = x\T = t ) = 0， V 6 L 现在考虑使得分 ㈤ = t 的: r . 利用 
事实 P 9 (X = Xi T = t )^ P 6 (X = x , q ( X ) = q { x )) = = x )， 有 


~ Pq(^X = x\T = t )= 


P e {X = x,T = t ) P e (X = x ) 

~ Pe(T = t )= ^ e(T = t ) 

_ r ( t , 6) s ( x ) __ r ( t ; 6) s ( x ) 

T , { zMz ) = t } r ( Q ( z )^ H z ) — r ( t ； e ) Y , { zMz )= t } s { z ) 

s( x ) 

T,^z\q^z)=t} S ( Z )^ 


因而 Pe(X = x\T = t ) 不依赖于 0. 这说明对于任意事件 D , 条件概率 Pe(X e 
D\T = t ) 对所有满足 P 0 (T = i ) > 0的0都一样，因而 r 是充分统计量. 
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反之，假设 r = q ( x ) 是充分统计量.对以任意满足 px ( x ； e ) > 0的&似然函 
数为 气 

px { x \6) = Pe{X = x \ q ( X ) = q ( x )) Pg ( q ( X ) = q ( x )). 

由于: T 是充分统计量，右边第一项不依赖与0， 就是 s ( x ) 的形式.第二项可写成 
和0的函数，即可以写成 r ( q ( x ), e ) 的形式. 

( b ) 这是由充分统计量的定义就可以证明的，因为对 C = 有 

P C (X e D\T = t ) = P 9 (Xe D\T = t ), 

所以 P ( ( X € D\T = t ) 对所有的 （ 是一样的. 

( c ) 根据 （< x )， 似然函数可以分解为 r ( q ( x ), e ) s ( x ). 因而最大似然估计在所有0中使 
r { q ( x ),9) 最大（若 ♦) > 0) 或者在所有6> 中使 r { q ( x ),9) 最小（若伞）< 0), 因 
而沒只通过 g (; r ) 依赖于 a ;. 

12. * 充分统计量的例子（ I ).在以下情况中证明 q ( X ) = J ：7= i X i 是充分统计量 

( a ) Xi ，…， X n 是参数为0的独立同分布的伯努利随机变量. 

( b ) Xx ,--- , X n 是参数为0的独立同分布的泊松随机变量. 

解 （ a ) 似然函数为 

Px ( x ； e ) = e ^ x \ i - e ) n -^ x \ 

因而可以将它分解为函数(9«⑷ (1 - 6 l ) mW 和常函数 S (： T ) = 1的乘积，前者只通 
过 g ㈤ 依赖于: C . 根据因子分解准则得知其为充分统计量. 

( b ) 似然函数为 

财 ㈣ )= n 财加)= e - e n £ i = 

因而可以将它分解为函数 e _ e 6l « ⑷和函数 s (; r ) = l / n ^ irci ! 的乘积，前者只通过 
9 ㈤ 依赖于 rr 而后者只与 a ; 有关.根据因子分解准则得知为充分统计量. 

13. * 充分统计量的例子（ II ). X !,-.. , X n 是均值 P 和方差 <7 2 的独立同分布正态随机变量. 

证明： 

( a ) 若 a 2 已知，则 q ( X ) = EHi 是 M 的充分统计量. 

( b ) 若 p 已知，则 q ( X ) = EL (兄_ M ) 2 是 W 的充分统计量 • 

( C ) 如果"和/都未知，则 q { X ) = ( EIU 不，右）是 （ Af 2 ) 的充分统计量. 

解利用例 9.4 的计算和因子分解准则. 

14. * 拉奥-布莱克维尔 定理. 这个问题是的要 义是： 一个一般的估计量,可以改进为只依赖于 

充分统计量的估 计量. 设给定观测 X = ( Xi , •■- , X n ), T = q ( X ) 是参数0的充分统计 
量， S ( X ) 是0的一个估计量. 

( a ) 证明 E e \ jg ( X )\ T ] 对所有0都一样.因此可以去掉下标0，将 
g ( X )= E [ g ( X )\ T ] 

看作0的一个新估计量，它只通过 T 依赖于 X . 
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( b ) 证明估计量 sPO 和 g ( x ) 的偏差相等. 

( c ) 证明对满足 var e ( ff ( X )) < 00 的 0 ， « 

E e [( g ( X )-0) 2 ]< E e [( ff ( X )-0) 2 ]. 

进一步地，给定 0 ，此不等式是严格的当且仅当 

E e [ var ( g ( X )| T )] >0. 

解 （ a ) 因为 T = q ( X ) 是充分统计量，条件分布 Pe(X = x\T = t ) 不依赖于因而 
E e [ ff ( X )| T ] 也不依赖于 0. 

( b ) 利用条件期望的性质 

Ee [ ffW ] = E e [ E [ S ( X )| T ] 卜 E 也( X )]， 

可知 sPQ 和 g ( X ) 的偏差 相等. 

( c ) 对固定对0，将 S ( X ) 和 g ( X ) 的偏差记为知.根据全方差定律有 

E e [( g ( X )- 9 ) 2 }= V aTe ( 9 ( X )) + b 2 e 

= E e [ var ( g ( X )| T )] + vax e ( E [ ff ( X )| T ]) + b \ 

= E e [ var ( fl ( X )| T )] + var e ( ff ( X )) + bj 
= E 4 vax ( ff ( X )| T )] + E 9 [( 3 ( X ) - 6 ) 2 ] 

^ E e [( g ( X ) - 6 ) 2 }, 

且不等式是严格的当且仅当 E e [ v ^( g ( X )\ T )} > 0. 

15.* 设 A ，…，是[0, 0] 上独立同分布的均勻分布随机变量. 

( a ) 证明是充分统计量. 

( b ) 证明 g [ X ) = (2/ n ) Xi 垦6 无偏估计. 

( c ) 找出估计量 g { X ) = E fl [ s ( X )| T ] 的形式,计算并比较 E 9 [(5( X )-0) 2 ] 和 E fl [( s ( X )- 
吖]_ 

解 （ a ) 似然函数为 


} x { x 1 , ■■■ ,Xn\ 6)= f Xl {Xl-,6) -- fx „{ x n ', e ) 


jl /0 n , 若 0 彡 max i = i ,„ a：i 彡 0 彡 1， 
lo ， 否则， 
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( c ) 在事件 {T = *} 中，一个观测兄等于 t . 剩下的 n - 1个观测服从区间[0』上的 
均勻分布，条件期望为 i /2. 这样， 

E[ S (X)|T = *] = 言 

因此 g ( X ) = E [ S ( X )| T ] = ( n + l ) T / n . 

下面来计算两个估计量沉义）和 9( X ) 的均方 误差. 为此要计算 g ( X ) 的一阶 
矩和二阶矩.有 


M9 ( X )] = E e [ E [ 5 ( X )| T ]] = E e \ g ( X )] = e . 


为找二阶距，首先确定 r 的概率密度函数.对 t e [0，0]，有 p e (T ^ t ) = ( i /0)", 微 
分得 fr ( t ; 9 ) = nt n ~ x Ie n . 因此， 

e «[( 购 ) 2 ]=($) 2 e [ t 2 ]= (^±iy j\^ Mt . e)dt 


-m 2 i? 


~ F~ C 


(n + i) 2 f 

n(n + 2) 


由 g { X ) 的均值是0，其均方误差和方差相等，且 

E 賴 X) - 奶 =_ ( 对 H 2 = 钱 〜: 

类似地, g ( X ) 的均方误差也和其方差相等，即 


e 0 [( 5 (x)-0) 2 ] = va -MXi) = 丟 . n . ^ = 忐 02 - 

可以看出对正整数 n 有忐多 ^ y . 所以 

E 9 [(5( X )-0) 2 ]< E e [( 3 ( X )-0) 2 ], 

符合拉奥-布莱克维尔定理. 

9.2 节线性回归 

16- 一家电力公司想要估计消费者日用电量和夏天每日温度之间的关系.收集数据见下表. 


温度 

96 

89 

81 

86 

83 

用电量 

23.67 

20.45 

21.86 

23.28 

20.71 

温度 

73 

78 

74 

76 

78 

用电量 

18.21 

18.85 

20.10 

18.48 

17.94 


( a ) 建立可用来预测用电量（温度的函数）的线性回归模型并估计参数. 
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( b ) 若某天温度是 go 度（华氏度)，试预测当天的用电量. 
下表给出5个数据对 


想对; c 和 y 的关系建立模型.考虑线性模型 


以及二次模型 

Yi = /3 o + Pixl + Vi , i = 1，…，5， 

其中奶和 K 是附加噪声项，视为独立零均值正态随机变量，方差分别为和 < r |. 

( a ) 找出线性模型参数的最大似然估计. 

( b ) 找出二次模型参数的最大似然估计 • 

( c ) 假设这两个模型为正确模型的概率是一样的，噪声项 Wi 和％的方差也 一样： a ? = 
< r |. 用极大后验概率准则从两个模型中做出选择. 

18.* 线性回归中的无偏性和相合性. 考虑概率范畴下的回归，假设 K = 00 + 0^ +奶 ， i = 
1， ...， n , 其中奶是独立同分布的零均值正态随机变量，方差为 a 2 . 给定: Ti 和 K 的实 
际值识 ， i = 1， ... ，5,办和&的最大似然估计在 9.2 节中由线性回归公式给出. 

( a ) 证明和&的最大似然估计是无偏的. 

( b ) 证明估计量白0和的方差分别是 

一。) 二疔 ’ 


⑽ W 。， 叫 —- ㈨ —印. 

( c ) 证明若 Er = i (^-®) 2 — GO 且无 2 在 n — oo 时被一个常数控制，则有 var (0 o ) 0 
和 varC ©!) ^ 0. (据此以及切比雪夫不等式可知，和都是相合的 •） 

注意： 尽管在本题中假定 Wi 是正态的（在求最大似然估计量时要用到 Wi 的分布)，但 
是后面的论证说明即使没有这个假设，估计量仍然是无偏且相合的. 

解 （ a ) 将办和九的真实值分别记为印和已知 

eo^-e^ 

E i= 1 (m ) 2 




, x n 看作常数.记 IT = (EILi Wi )/ n , 则有 
Wi, Y = 9*0+6^ +W, 


以及 


Yi-Y = 0l(xi -x) + {Wi - W). 




因此 
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A Er=i(^ - -x) + Wi-W) 〜， Y ： 7=i(^i - -W) 

一 /_ -\o _ ^1 ~ 7~. 


Er = i (^-*) 2 


Er = i (^-^) 2 


这里用到事实 ELi (^ -句 = o .由于 E [ Wi ] = 0,我们得到 
e [© i ] = el 

同样由 

@o = V " — © i * = Oq + 9 *x + W — 0 ix = 0 q + (^i — 0 i)x + W , 

和事实 E [0!] = el 以及 E [ W ] = 0 得到 

E [0 o ]=0 o - 

( b ) 现在来计算两个估计量的方差.利用 （ a ) 中推导关于白1的公式和奶的独立性, 
varCeO = m ■(恥 ) —一 a 2 


(O -无) 2 ) 2 

类似的用⑷中推导关于00的公式有 




var(©o) = var(W r — @ix) = var(T^) + x 2 var(©i) — 2^cov(W, ©i). 
由于 EILi (^ -幻 = 0 以及 E [ WWi ] = a 2 / n 对所有 i 成立，于是得到 

-(^,60 = 呢:产:， = 迄 (H 

结合最后三个等式，得到 
var (0 o ) = var ( VK )+ x 2 vax (0 i ) = —+- 
二项展开（的-幻 2 得到 


Y .7= ii . Xi - x ) 2 


T , i =1 ( xi - X ) 2 


' Er = i (^-®) 2 


Er = i( a： i -®) 2 


Y^{xi-x) 2 + nx 2 = '^2,x 2 i . 


结合前面两个等式，得到 


r (9 o ) : 




d ( K <- 至 ) 2 . 

最后来计算白 0 和 的协方差.有 

covCQo ,©!) = E [(0 o - 00)(01 _ 的)]= E [((6 I * -0 i)x + W )(6 i - 
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或者 

cov (@ o 5 @ i ) = - xvar ( Qi ) + cov ( W , @ 1 ). 

由于之前说过 cov ( W ,0 i ) = O , 最终得到 

cov ( e 0 , e 1 ) = - Er J ^_- )2 - 

( C ) 若 Er = i (^-^) 2 — 00 ,由 （ b ) 中推导的表达式可知 var (0 i ) ^ 0. 进一步由 （ b ) 
中公式 

var (0 o ) = va , r ( W ) + i 2 var (0 i ), 

以及假设护被一常数控制可知 vax (0 o ) ^ 0. 

19.* 线性回归中的方差估计. 在和18题相同的假设条件下，证明 

是 < r 2 的无偏估计量. 

解令 = Er = i (^ -00- QiXi) 2 . 用公式 ©0 = y — 白4和白 i 的表达式得到 

Vn ^Y^iYi-Y -Q^Xi-x)) 2 
i=l 

= f ^( y i - y ) 2 -20 1 - Y )( Xi - x ) + e ? -旬 2 

i=l i=l i=l 

= J 2 ( y ,- Y ) 2 - eiJ 2^-^ 2 

i=l i=l 

= ^ y i 2 - nr 2 - e ?^( x i - x ) 2 . 

i=l i=l 

两边取期望得到 

E [ K ]= f ^ E [ y i 2 ]- nE [ Y 2 } - - x ) 2 E [0?]. 

i=l i=l 

同时有 

E^ 2 ] = varCTi) + (E^]) 2 = a 2 + ㈨ + 0 ： Xi ) 2 , 

E [ F 2 ] = var ( F ) + ( E [ F ]) 2 = — + (0 O * + 0 U ) 2 , 
n 

E [©?] = var (© i ) + ( E [0 i ]) 2 = 二 —无 ) 2 + (6> I ) 2 . 

结合 4 个等式并化简，得到 

E[V n ] = (n —2 )<t 2 . 



习 题 441 


9.3 节简单假设检验 

20. 随机变量 X 由正态概率密度函数刻画，均值仲= 20,方差或者是 <rg = 16( 假设或 
者是= 25( 假设对于这样的一个简单假设检验问题，我们采用拒绝域 

R = {x\x\ + K2 + X3 > 7} 

其中 7 是待定的临界值.设错误拒绝概率为 0.05, 相应的 7 等于多少？相应错误接受的 
概率是多少？ 

21. 已知正态随机变量 X 的均值为60,标准差为 5( 假设丑 ◦) 或 8( 假设历). 

( a ) 考虑用一个简单样本 z 来做假设检验.拒绝域的形式为 

R = {x\\x — 60| > 7}- 

在错误拒绝丑 q 的概率为 0.1 的情况下确定 7 的取值.相应错误接受的概率是多 
少？如果以同样的错误拒绝概率，用似然比检验会改变拒绝域吗？ 

( b ) 考虑用 n 个样本 X !,..- 来做假设检验.拒绝域的形式为 

«={(^,••- ，知 )|| X1 + . 二+〜 _60| >7 }, 

其中7使得错误拒绝执概率为 0 . 1 . 错误接受的概率随着 n 的改变如何变化？就 
这种检验的恰当之处做个总结. 

( c ) 用 n 个观察值 xi , ••- ,x n 来推导似然比检验的构成. 

22. 有两个关于给定硬币正面向上概率的假设： 6» = 0. 5 (假设丑 0) 和0 = 0.6( 假设迅).设 
X 是 n 次投掷中正面朝上的次数，当 n 足够大时， X 的分布可以合理近似为正态分布. 
对于这样的简单假设检验问题，若 X 大于某个合适的选择值则拒绝 flo . 

( a ) 当错误拒绝的概率小于或等于 0.05 时，匕的取值应该是多少？ 

( b ) 为保证错误拒绝和错误接受的概率都不超过 0.05, n 的最小值是多少？ 

( c ) 当 n 取⑻中的值，以相同的错误拒绝概率做似然比检验，此时错误接受的概率是 
多少？ 

23. 票务公司一天内接到电话的总数服从泊松分布.平常日，电话数的期望值是 Ao ; 城里有 
热门演出的一天，电话数的期望为乂，且 At > A 0 . 描述根据电话总数判断城里是否有热 
门演出的似然比检验.假设给定了错误拒绝的概率，写出临界值（的表达式. 

24. 有一批灯泡，其寿命为独立同分布的指数分布随机变量，参数为 A Q (假设 H Q ) 或 Ai (假设 
Hi). 对于这个假设检验问题，测量 n 个灯泡的寿命值.求出相应的似然比检验的拒绝域. 
假设错误拒绝 iJo 的概率给定，写出临界值$的解析表达式. 

9.4 节显著性检验 

25 •设 X 是均值为仏方差为1的正态随机变量.现在想利用 X 的 n 个独立观察值，在5% 
显著水平下检验假设 ^ = 5. 

( a ) 样本均值在什么范围内就接受假设？ 

( b ) 令 n = 10. 计算在 M 的真实值是4的情况下接受 fj, = 5 的概率. 
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26. 从未知均值^和方差 < r 2 的正态分布中抽取 5 个独立观察值. 

( a ) 若样本值为 8.47, 10.91, 10.87, 9.46, 10.40, 估计 p 和 a 2 . 

( b ) 利用 （ a ) 中的估计和分布表，在95%显著水平下检验假设 ^ = 9. 

27. 两个岛上生长了同一种植物.假设植物在第一个（或第二个）岛上的寿命（按天计算）服 
从未知均值 Mx (或和方差= 32( 或 (4 = 29) 正态分布.现在从每个岛上获得 
10个独立观察值，我们想检验假设 叫=吖. 相应样本均值是$ = 181和& = 177.问 
数据在95%显著性水平下支持假设吗？ 

28. 一家公司在考虑购买一台制造某种零件的机器.测试时，机器制造的600个零件中28个 
有缺陷.问数据是否在95%显著水平下支持假设“机器的缺陷率小于3%”？ 

29. 设泊松随机变量的5个独立观察值为 ： 34, 35, 29, 31和30.在5%显著水平下检验均值 
是否等于 35. 

30. 一台监视器周期性地检査某个特定区域，并根据是否有入侵者记录信号 ， X = W 为没有 
入侵者（此为原假设 H 0 ),X = 9 + W 为存在入侵者，其中0非负未知.假设 W 是零均 
值、方差 p = 0.5 的正态随机变量. 

( a ) 得到一个观测值 X = 0.96 .在5%显著水平下是否拒绝丑 0 ? 

( b ) 得到5个观测值 X = 0.96, -0.34, 0.85, 0.51，- 0.24 .在5%显著水平下是否拒绝 
Ho? 

( c ) 重复 （b)， 用分布，并假设方差〃未知. 
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几个特殊离散随机变量的小结 

在 [ a ，6] 上的均匀分布： 


Px(k ) = 


b — a-\-l 

0 , 


若 A ; = a , a + 1, • • • ,6 
其他， 


寧 ]= 年， va r (X)= (6 - Q) ^- a + 2) , M x (s) = 
参数为 P 的伯努利分布：（刻画单个试验的成功或失败). 


e sa ( e s ( b - a+1 ) — 1) 
(&-a + l)(e s — 1) 


Px(k)= 


P, 

1-P, 


若 A : = 1， 
若 fc = 0, 


E[X}=p, var(X)=p(l-p) ; M x (s) = 1 - p pe s . 

参数为 P，n 的二项 分布： 刻画 n 个独立的伯努利试验中的成功数. 

Px{k) = (^jp k (l-p) n ~ k , fc = 0 ， 1 ， ... ， n ， 

E[a:] = np, var(X) = np(l —p), Mx(s) = (1 — p + pe s ) n . 

参数为 p 的几何分布：刻画在一列独立的伯努利试验中直到出现第一次成功前 
的试验数 

Px(k) = (1 -p) fc_1 p, A; = l ， 2 ，.-.， 

释会，■(々 = ¥， ㈣ = 

参数为 A 的泊松分 布：当 n 很大， p 很小时近似为二项分布，且有 A = np . 

Px(k) = fc = 0,1, • • •, 

E[X] = A, var ⑷ =A, M x {s) = e^ 3 ^. 
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几个特殊的连续随机变量的小结 

在 [ a ，6] 上的连续均匀 分布： 


fx(x ) = 



若 a < a ; ^ 6 
其他， 


E[X] = 


<2 + 6 


参数为 A 的指数 分布: 


var(X) = 


(b-a ) 2 
12 5 


M x {s)= 


e sb - e sa 
s(b - a) 


) \e~ Xx , 

0， 


若; E > 0, 
其他， 


Fx(x)= 



若 a ; 彡0, 
其他， 


E W = j, var ⑷ = 条， Mx{x) = < A). 

参数为 M ，^>0 的正态 分布： 

跡去 6 -一 2 ， 

E[X] = " ， var(X) = a 2 , M x [s) = e ( 八 2 / 2 )+ 
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.9988 

•9989 

.9989 

.9989 

.9990 

.9990 

3.1 

.9990 

.9991 

.9991 

.9991 

.9992 

.9992 

.9992 

.9992 

.9993 

.9993 

3.2 

.9993 

.9993 

.9994 

.9994 

.9994 

.9994 

.9994 

.9995 

.9995 

.9995 

3.3 

.9995 

.9995 

.9995 

.9996 

.9996 

.9996 

.9996 

.9996 

.9996 

.9997 

3.4 

.9997 

.9997 

.9997 

.9997 

.9997 

.9997 

■9997 

.9997 

.9997 

.9998 


注表中的项提供了 Hv ) = p ( y 彡 y) 的值，其中 Y 是标准正态随机变量，0彡 J /彡 3.49. 















